大数据+机器学习+平台架构

大数据
基础课
Linux
和高并发
Hadoop
生态体系
大数据数据
仓库阶段
Spark计算
框架体系
机器学习和
算法体系
Flink实时
计算框架
平台架构师
课程体系

主讲内容

HTML语言、数据类型和运算符、流程控制、数组

可掌握的核心技能

HTML基础标签
表单标签&框架标签&新增标签
CSS常见选择器&CSS样式
CSS盒子模型&CSS3新增属性

项目与案例

12306网站
使用HTML和CSS技能，完成新版12306网站首页的开发。主要涉及HTML的div、span、form、a、img、ul、dl、等标签的使用，涉及CSS选择器、常用属性、定位、浮动、盒子模型等的使用。

主讲内容

Linux基础、Linux管理、Linux文本操作、Nginx原理与配置、Session和缓存

可掌握的核心技能

Linux 系统安装使用
Shell 脚本编写
Linux 文件系统操作及权限操作
keepalived 原理及使用
Nginx
Session 一致性

学习目的

帮大家进入大数据领域打好，Linux基础，以便更好地学习 Hadoop，MapReduce，Yarn，Storm，Spark，Flink 等众多课程。

可解决的现实问题及价值所在

通过学习如果处理大型网站高并发问题反向更深入的学习了 Linux，同时站在了更高的角度去触探架构，企业中如何使用 Linux。

主讲内容

Zookper、MapReduce、HDFS概念、oozie、Redis缓存数据库

可掌握的核心技能

Hadoop生态圈技术栈
HDFS架构原理
MapReduce执行原理
Hue使用
impala架构与原理
oozie使用
Redis缓存数据库使用

学习目的

在本过程中不仅将用到前面的Linux知识，而且会对hadoop的架构有深入的理解，并未你以后架构大数据项目打下坚实基础。

可解决的现实问题及价值所在

知道为何存在分布式存储以及分布式存储在企业级中的应用是什么样的？如何采用更好的方式对数据进行管理、分析、查询、如何对集群更好的进行统一部署管理、如何对数据结果快速响应等等。

主讲内容

数据仓库基础、Hive架构、Hbase架构与操作、Flume、ElasticSearch、Kylin架构与使用

可掌握的核心技能

数据仓库分层
数据仓库与数据库区别
Hive架构原理
Hbase架构原理
Hive DDL、Hive DML
Hbase安全管理
Flume架构与原理
Sqoop架构与原理
Kylin架构与原理

学习目的

将不同的业务系统中的数据汇集在大数据平台中也不再单单是数据的堆积，对不同的业务系统中的数据我们需要进行管理及数据治理，同时保证数据的质量，这就需要在大数据平台中构建数据仓库，对数据进行统一、有效处理，保证数据质量。

可解决的现实问题及价值所在

目前企业中使用的数据仓库分层是如何设计的、了解维度建模理论及数据抽取、转换、管理、治理相关的知识。同时可以学习到实际企业中常用的数据ETL工具和组件，为大家后期工作打下坚实的基础。

主讲内容

Scala基础、Spark核心基础、Spark核心进阶、Spark核心高级、SparkSQL、Kafka分布式消息系统

可掌握的核心技能

Scala高级应用
Actor通信模型
Spark生态体系技术栈
Spark核心RDD
Spark容错机制
Spark转换、行动、持久化算子使用
Spark计算模式

学习目的

本部分内容全面涵盖了Spark生态系统的概述及其编程模型，深入内核的研究，Spark on Yarn,Spark Streaming流式计算原理与实践，Spark SQL,Spark的多语言编程以及Spark各个模块原理和运行

可解决的现实问题及价值所在

Spark计算框架相对于其他的计算框架来说非常优秀，学好本阶段的课程我们可以对企业中的PB级数据处理、数据分析、数据查询做到快速应对、秒级相应的数据处理效果。

主讲内容

python基础、python设计模式与异常、PySpark、多元线性回归算法、KNN分类算法、决策树算法、推荐系统原理

可掌握的核心技能

python 模块管理
Numpy 库使用
Pyspark 开发
线性回归算法原理
多元线性回归算法原理
贝叶斯分类算法
KNN 分类算法
K-Means 聚类算法
TF-IDF 算法
逻辑回归算法

学习目的

企业中一旦有了海量数据，势必会在数据中挖掘出数据的潜在价值，本阶段学习就是需要通过机器学习的技术将数据的价值挖掘出来。

可解决的现实问题及价值所在

在海量数据中挖掘出潜在的价值。同样，本阶段也是同学们未来伸入人工智能方向的“必经之路”，为后期在企业或者在未来的学习中打下坚实的基础。

主讲内容

Flink基础、Flink Api、Flink高级功能、Flink窗口与Time、Flink与Kafka整合

可掌握的核心技能

Flink架构原理
Flink流式计算优势
有界数据流
无界数据流
Flink 算子链
Flink状态管理
Flink Time原理
Flink窗口操作

学习目的

Flink是新一代的流式计算框架，性能相对于Storm和SparkStreaming都有很大提升，Flink同样也可以进行批处理和SQL处理。

可解决的现实问题及价值所在

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务

主讲内容

Hive优化、Hbase优化、Spark核心源码分析、Spark优化、机器学习优化、Flink源码分析

可掌握的核心技能

Hive优化
Hbase优化
Spark核心源码分析
Spark优化
机器学习优化
Flink源码分析

学习目的

使各位同学在针对企业面试、企业集群优化、数据处理方案优化、数据处理架构选择等方面凸显优势，占领技术制高点。

可解决的现实问题及价值所在

目前企业工作竞争压力大，需要优秀的数据开发、分析人员，同时企业技术也在更新换代，通过本阶段的学习可以使同学们在面对企业工作竞争更显优势，同时也可以解决公司中集群优化、技术选型等问题。

中国银行审计数据集市平台

项目介绍：

中国银行审计数据集市平台项目是一个集在线大数据分析、疑点扫描、风险评估、事件预警、跟踪预警、线索聚集、数据表级操作为一体的通用平台。其中主要内容包含数据仓库的建设，数据集市建设，数据流转分析等功能。本项目可以让我们学习到真正的大数据公司如何对数据仓库及数据集市平台进行设计和搭建，如何对数据进行模型化分析，此项目基于同学们掌握的大数据基础知识进行实战化训练，强化同学们对数据模型的建立。

技术架构：