课程介绍

此课程所属【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业，专业内有不少于15门推荐课程，目前平台推出【专业课程0元学】活动，只需0元即可在所有的专业课程中任选5门学习，超值优惠，助您快速成长！点击这里了解

讲师

dasheng: pyther，十年IT工作经验，曾就职阿里巴巴、雅虎，现为大数据独立顾问。

课程简介

当下是大数据时代，为构建大数据平台，技术人员需要对分布式计算平台有一定深入的理解和应用。Apache Spark 作为MapReduce的新一代继承者。是对map reduce从性能，易用性和复杂分析优化的强大的开源数据处理引擎。Spark框架支持流式数据处理，复杂迭代算法，比传统Hadoop MapReduce 程序快100倍。
Python语言时当下数据领域的瑞士军刀，但是作为一门脚本语言python先天只能在一台机器上发展，不适合分析大数据，因此需要其他大数据软件来处理，Spark虽然是由Scala编写，但也提供了Pyspark，让熟悉Python者能够轻易熟悉操作大数据。

本课程将为大家全面而又深入的介绍Spark1.x,2.x 、Hadoop、pyspark平台的构建流程，涉及Spark、Hadoop系统基础知识，概念及架构， pySpark、Hadoop的实战技巧，Spark、Hadoop经典案例等。

通过本课程实践，帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识；理解Spark、Hadoop系统适用的场景；掌握pySpark、Hadoop等初中级应用开发技能，让你的python水平更上层楼。

课程章节

第1课 spark介绍
- 1-1 hadoop、spark集群环境搭建
- 1-2 pyspark开发环境搭建
- 1-3 spark 1.x和2.x的对比
第2课 pySpark核心编程模型
- 2-1 RDD
- 2-2 transformation
- 2-3 action
第3课 pySpark核心编程实战
- 3-1 lineage
- 3-2 容错处理
- 3-3 宽依赖与窄依赖
第4课 Spark内核详解剖析
- 4-1 Spark术语解释
- 4-2 集群概览
- 4-3 核心组件
- 4-4 数据本地性
第5课 spark任务调度详解
- 5-1 RDD任务调度(DAGScheduler ,TaskScheduler)
- 5-2 Task细节
- 5-3 广播变量
- 5-4 累加器
第6课 spark工程经验和性能调优
第7课 spark sql 详解
- 7-1 DataFrame
- 7-2 外部数据源API
- 7-3 与Spark其他组件的交互
第8课 spark sql编程实战
- 8-1 Catalyst查询优化器
- 8-2 Tungsten 优化
第9课 spark streaming 开发
- 9-1 Dstream
- 9-2 数据源
- 9-3 容错
第10课 spark运维技能

学费

学费: ￥400 ( 固定学费: ￥100，逆向学费: ￥300 )

新颖的课程收费形式：“逆向收费”约等于免费学习，仅收取100元固定收费+300元逆向学费，学习圆满则逆向学费全额返还给学员！

突击pyspark：数据挖掘的力量倍增器（第1..