课程信息

此课程所属【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业，专业内有不少于15门推荐课程，目前平台推出【专业课程0元学】活动，只需0元即可在所有的专业课程中任选5门学习，超值优惠，助您快速成长！点击这里了解

讲师

njfrog

课程简介

      本门课程来源于一线生产项目，所有代码都是在现网大数据集群上稳定运行，拒绝Demo。本门课程涵盖了离线分析、实时分析绝大部分的场景，通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Kafka、Oracle、ElasticSearch等相关大数据技术，并实际落地。

     本门课程全程实操，不用担心基础不好，老师将会从每个项目的演进过程详细分析，手把手搭建开发环境，每个功能点都有代码实操，拿到生产上可以直接使用。

     本门课程大量生产上的较佳实践，不仅能为技术选型提供参考，也能大幅度提升个人的知识和技术水平，学完可以胜任PB级大数据的开发和优化，面试中说出来都是亮点，是跳槽、转型、加薪的利器，让你轻松实现华丽转身。只要你有一点Hadoop、Spark和Scala基础，并且能保持学习的热情，那么就跟随老师来吧。

课程章节

第1课生产项目的演进和改造思路
- 1-1 三大生产项目（离线日志分析、企业预警实时监控、安全日志上报之Spark Streaming+Kafka保证数据零丢失）业务介绍
- 1-2 离线分析和实时分析的场景介绍
- 1-3 改造思路
- 1-4 Hadoop、Spark、Hbase、Kafka、ElasticSearch等项目软件选型
第2课手把手从零搭建开发环境
- 2-1 Hadoop、Spark、Hbase、Kafka、ElasticSearch软件安装
- 2-2 IDEA安装
- 2-3 Maven工程构建
- 2-4 IDEA调试Spark项目
- 2-5 Spark源码编译
- 2-6 Spark作业提交方式
第3课安全日志上报之Spark Streaming+Kafka保证数据零丢失（一）
- 3-1 Spark Streaming 整合Kafka的几种方式对比
- 3-2 彻底搞懂Kafka 消息检索原理
- 3-3 使用Spark Streaming进行Kafka 的Offset管理（Checkpoints、Hbase、Zookeeper、Kafka）
- 3-4 Spark Streaming保存offset到zookeeper乱码处理
第4课安全日志上报之Spark Streaming+Kafka保证数据零丢失（二）
- 4-1 实时作业的at most once、at least once、exactly once语义
- 4-2 方案选型和对比（四种方案）
- 4-3 Spark Streming + Kafka 如何获取每条消息的offset、partition以及每批次的from offset、end offset、count。
- 4-4 Spark Streming + Kafka（消费） + Kafka（清洗后入）方案和代码实操
第5课安全日志上报之Spark Streaming+Kafka保证数据零丢失(三）
- 5-1 SQL on Hbase 实现的几种方式
- 5-2 Spark Streming + Kafka（消费） + Hbase（清洗后入）实现exactly once语义方案
- 5-3 代码实操
- 5-4 SQL on Hbase 性能优化
第6课安全日志上报之Spark Streaming+Kafka保证数据零丢失(四）
- 6-1 Spark 整合Elasticsearch要点和案例实操
- 6-2 Spark Streming + Kafka（消费） + Elasticsearch实现exactly once语义方案
- 6-3 Spark Streming + Kafka（消费） +Oracle实现exactly once语义方案
- 6-4 代码实操
- 6-5 Spark 整合Elasticsearch性能优化
第7课离线日志分析项目（一）
- 7-1 第一版问题分析
- 7-2 ETL流程分析
- 7-3 Flume+Nginx整合, 数据采集，日志分割
- 7-4 Flume如何实现负载均衡和高可用
- 7-5 日志收集系统架构（可用性、可靠性、可扩展性）
第8课离线日志分析项目（二）
- 8-1 文件存储格式对比
- 8-2 Spark 整合 Hive
- 8-3 第二版项目方案的演进和代码实操
- 8-4 解决小文件问题
- 8-5 数据质量监控
第9课离线日志分析项目（三）
- 9-1 理解Spark的Stage划分，如何定位导致数据倾斜代码，数据倾斜的场景和需要注意的地方
- 9-2 广播变量使用的坑
- 9-3 Spark整合Oracle的表需要注意的地方
- 9-4 Spark作业调度异常问题案例汇总
第10课企业预警实时监控
- 10-1 第一版：使用Spark Streaming清洗数据（Hive动态分区等） + 代码实操
- 10-2 第一版存在的问题分析
- 10-3 第二版项目方案的演进和代码实操
- 10-4 中文乱码问题解决
第11课通用解决方案
- 11-1 Hbase 二级索引
- 11-2 Hbase + ElasticSearch整合，实现海量数据查询
- 11-3 不通场景下， Spark 写数据到Oracle的方案（集群和Oracle服务器网络是否连通等. ）
- 11-4 Driver内存调优
- 11-5 其他

课程环境

操作系统： Vmware + CentOS 6.5 ，物理机内存最好8G以上。

开发工具： IDEA

大数据： CDH 5.7

授课对象

有一点Hadoop、Spark的基础。针对Hbase、Kafka、ES等基础不足的同学，讲师会根据项目需要对其核心部分进行详细介绍。

收获预期

1. 掌握生产上企业级大数据的开发流程。

2. 可以胜任PB级大数据的开发和优化

3. 达到3年大数据从业经验的水平

学费

学费: ￥400 ( 固定学费: ￥300，逆向学费: ￥100 )

新颖的课程收费形式：“逆向收费”约等于免费学习，仅收取300元固定收费+100元逆向学费，学习圆满则逆向学费全额返还给学员！

【快班】Spark企业级大数据项目实战