突击pyspark:数据挖掘的力量倍增器(第2..
10月24日
10周
0人
此课程所属【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业,专业内有不少于15门推荐课程,目前平台推出【专业课程0元学】活动,只需0元即可在所有的专业课程中任选5门学习,超值优惠,助您快速成长!点击这里了解
讲师
- dasheng
- pyther,十年IT工作经验,曾就职阿里巴巴、雅虎,现为大数据独立顾问。
课程简介
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。Apache Spark
作为MapReduce的新一代继承者。 是对map
reduce从性能,易用性和复杂分析优化的强大的开源数据处理引擎。Spark框架支持流式数据处理, 复杂迭代算法,比传统Hadoop
MapReduce 程序快100倍。
Python语言时当下数据领域的瑞士军刀,但是作为一门脚本语言python先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,Spark虽然是由Scala编写,但也提供了Pyspark,让熟悉Python者能够轻易熟悉操作大数据。
本课程将为大家全面而又深入的介绍Spark1.x,2.x 、Hadoop、pyspark平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, pySpark、Hadoop的实战技巧,Spark、Hadoop经典案例等。
通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握pySpark、Hadoop等初中级应用开发技能,让你的python水平更上层楼。
Python语言时当下数据领域的瑞士军刀,但是作为一门脚本语言python先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,Spark虽然是由Scala编写,但也提供了Pyspark,让熟悉Python者能够轻易熟悉操作大数据。
本课程将为大家全面而又深入的介绍Spark1.x,2.x 、Hadoop、pyspark平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, pySpark、Hadoop的实战技巧,Spark、Hadoop经典案例等。
通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握pySpark、Hadoop等初中级应用开发技能,让你的python水平更上层楼。
课程章节
- 第1课 spark介绍
- 1-1 hadoop、spark集群环境搭建
- 1-2 pyspark开发环境搭建
- 1-3 spark 1.x和2.x的对比
- 第2课 pySpark核心编程模型
- 2-1 RDD
- 2-2 transformation
- 2-3 action
- 第3课 pySpark核心编程实战
- 3-1 lineage
- 3-2 容错处理
- 3-3 宽依赖与窄依赖
- 第4课 Spark内核详解剖析
- 4-1 Spark术语解释
- 4-2 集群概览
- 4-3 核心组件
- 4-4 数据本地性
- 第5课 spark任务调度详解
- 5-1 RDD任务调度(DAGScheduler ,TaskScheduler)
- 5-2 Task细节
- 5-3 广播变量
- 5-4 累加器
- 第6课 spark工程经验和性能调优
- 第7课 spark sql 详解
- 7-1 DataFrame
- 7-2 外部数据源API
- 7-3 与Spark其他组件的交互
- 第8课 spark sql编程实战
- 8-1 Catalyst查询优化器
- 8-2 Tungsten 优化
- 第9课 spark streaming 开发
- 9-1 Dstream
- 9-2 数据源
- 9-3 容错
- 第10课 spark运维技能
学费
学费: ¥400 ( 固定学费: ¥100, 逆向学费: ¥300 )
新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元逆向学费,学习圆满则逆向学费全额返还给学员!
相关课程