|
内容介绍:
课程内容:
1:Spark生态和安装部署(一周内容)
什么是Spark
Spark有什么
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone HA安装
Spark工具
Spark交互式工具spark-shell
Spark应用程序部署工具spark-submit
2:Spark编程模型和解析(一周内容)
Spark的编程模型
RDD的特点、操作、依赖关系
缓存策略
广播变量和累加器
Spark编程环境搭建
Spark编程实例解析
WordCount
日志处理
3:Spark运行架构和解析(一周内容)
Spark的运行架构
基本术语
运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性)
Spark on Standalone运行过程
Spark on YARN 运行过程
Spark运行实例解析
Spark on Standalone实例解析
Spark on YARN实例解析
4:Spark SQL原理和实践(二周内容)
hive和shark
hive的原理、安装、运行
shark的原理、安装、运行
Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL编程模型
Spark SQL和Hive
Spark SQL的实例和编程
Spark SQL的实例操作
Spark SQL的编程
5:Spark Streaming原理和实践(一周内容)
Spark Streaming原理
Spark流式处理架构
DStream的特点
Dstream的操作和RDD的区别
Spark Streaming的优化
Spark Streaming实例
文本实例
Window操作
网络数据处理
6:Spark 机器学习入门(一周内容)
机器学习的原理
Mllib常用算法简介
Mllib的例程分析
7:GraphX 入门(一周内容)
图论基础
GraphX的简介
GraphX例程分析
8:Spark运维和调优(二周内容)
Spark配置
history server
job server
Spark的监控
Spark UI监控
Ganglia 监控
Spark调优
9:Spark编程(二周内容)
Spark的多语言编程
Scala开发Spark应用程序
Pyhton开发Spark应用程序
Spark的应用开发
Spark和Nosql(redis、mongodb)
Spark和RDBMS(mysql)
Spark和Hbase
10:Spark源码研读(二周内容)
Spark源码研读
Spark源码下载和研读环境搭建
Spark Core介绍
SparkContext
Executor
Deploy
RDD和Storage
Scheduler和Task
Spark Examples介绍
11:杂谈(一周内容)
基于Spark的衍生项目
BlinkDB简介
SparkR的安装和实例
Spark和MapReduce、Tez
Spark和Techyon
Spark的优秀网站、书籍、牛人介绍
百度网盘下载地址:
|
|