课程介绍
  • 课程首页
  • 拼团活动
  • 专业套餐
  • 优惠活动
  • 我的课程
  • 站内消息
  • 站内提醒
  • 我的钱包
  • 奖学金
  • 道具 | 抵价券
  • 登录


Spark大数据平台应用实战(第15期)

06月08日

12周

3人

此课程所属【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业,专业内有不少于15门推荐课程,目前平台推出【专业课程0元学】活动,只需0元即可在所有的专业课程中任选5门学习,超值优惠,助您快速成长!点击这里了解

讲师
habren
Jason,就职某大型互联网公司,多年Kafka和Hadoop及Spark研究、应用及调优经验。现从事大数据平台(集群规模两万加)优化工作。
课程简介
对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯克利大学AMPLab,于2010年正式开源,2013年成为了Apache基金项目,2014年成为Apache基金的顶级项目,整个过程不到五年时间。

2015年是Spark飞速发展的一年,Spark成为了现在大数据领域最火的开源软件,截止2015年,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。

学习它并掌握它,是大数据风口下IT人的必备技能。本课程全程将通过以下内容的实战演练,带你玩转Spark!

本课程将会结合精典案例讲解Spark Job的整个生命周期,以及如何划分Stage,如何生成逻辑执行计划和物理执行计划。从Hash Shuffle到Sort Shuffle再到Tungsten Sort Shuffle详细分析Spark Shuffle机制的原理与演进,同时结合Yarn分析Spark的内存模型以及如何进行相关调优,其中两节课主要介绍Spark Streaming使用方式,分析通用流式处理系统的关键问题以及Spark Streaming对相应问题的解决方案,如窗口,乱序,Checkpoint等,并分析Spark Streaming与Storm和Kafka Stream各自的优缺点和适用场景。

最后将结合源码分析Spark SQL的原理,以及实现SQL引擎的一般方法,介绍如何进行Spark SQL性能优化。并结合大量真实案例,分析如何解决数据倾斜问题从而提高应用性能。
课程章节
  • 第1课 Spark背景介绍与安装部署
    • 1-1 Spark在大数据生态中的定位
    • 1-2 Spark主要模块介绍
    • 1-3 Spark部署模型介绍
    • 1-4 Spark基于Ambari的安装
    • 1-5 Spark Standalone下的HA
  • 第2课 基于Java的Spark编程入门
    • 2-1 Spark应用中的术语介绍
    • 2-2 交互式工具spark-shell
    • 2-3 从Word Count看Spark编程
    • 2-4 spark-submit的几种用法
  • 第3课 Spark常用算子介绍
    • 3-1 transform与action
    • 3-2 广播变量与累加器
    • 3-3 persist与checkpoint
    • 3-4 数据本地性(Data locality)
  • 第4课 一个Spark应用的一生
    • 4-1 Spark应用的Stage划分
    • 4-2 窄依赖 vs. Shuffle依赖
    • 4-3 Job逻辑执行计划
    • 4-4 Job物理执行计划
  • 第5课 Shuffle机制变迁
    • 5-1 Hadoop Shuffle方案
    • 5-2 Spark Hash Shuffle
    • 5-3 Spark Sort Shuffle
    • 5-4 Spark Tungsten Sort Shuffle
  • 第6课 Spark SQL实战
    • 6-1 Spark SQL前世今生
    • 6-2 RDD vs. Dataframe vs. Dataset
    • 6-3 使用外部数据源
    • 6-4 连接metastore
    • 6-5 自定义函数
    • 6-6 spark-sql与Spark thrift server
  • 第7课 Spark SQL原理
    • 7-1 Spark SQL执行过程解析
    • 7-2 Catalyst原理
    • 7-3 SQL引擎原理
    • 7-4 Spark SQL优化
  • 第8课 例讲数据倾斜解决方案
    • 8-1 为何需要处理数据倾斜
    • 8-2 调整并行度,分散同一Task的不同Key
    • 8-3 自定义Partitioner,分散同一Task的不同Key
    • 8-4 Map Join代替Reduce Join消除数据倾斜
    • 8-5 为倾斜key增加随机前缀
    • 8-6 大表增加随机前缀,小表扩容
  • 第9课 Spark Streaming上
    • 9-1 Spark Streaming示例
    • 9-2 流式系统关键问题分析
    • 9-3 Window操作
    • 9-4 如何在流数据上做Join
    • 9-5 Checkpoint机制
  • 第10课 Spark Streaming下
    • 10-1 如何处理数据乱序问题
    • 10-2 Spark Streaming容错机制
    • 10-3 Spark与Kafka实现Exactly once
    • 10-4 Spark Streaming vs. Storm vs. Kafka Stream
    • 10-5 Spark Streaming性能优化
    • 10-6 Structured Streaming
  • 第11课 Spark MLlib
    • 11-1 Pipeline
    • 11-2 特征工程
    • 11-3 模型选择
    • 11-4 调优
  • 第12课 Spark优化
    • 12-1 应用代码优化
    • 12-2 Spark统一内存模型
    • 12-3 基于YARN的参数优化
    • 12-4 其它优化项
学费

学费: ¥400 ( 固定学费: ¥100, 逆向学费: ¥300 )

新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元逆向学费,学习圆满则逆向学费全额返还给学员!




炼数成金移动版 v2.0