课程信息
  • 课程首页
  • 拼团活动
  • 专业套餐
  • 优惠活动
  • 我的课程
  • 站内消息
  • 站内提醒
  • 我的钱包
  • 奖学金
  • 道具 | 抵价券
  • 登录


【快班】Spark企业级大数据项目实战

分布式系统

11周

11人

此课程所属【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业,专业内有不少于15门推荐课程,目前平台推出【专业课程0元学】活动,只需0元即可在所有的专业课程中任选5门学习,超值优惠,助您快速成长!点击这里了解

讲师
njfrog
课程简介

      本门课程来源于一线生产项目, 所有代码都是在现网大数据集群上稳定运行, 拒绝Demo。 本门课程涵盖了离线分析、实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Kafka、Oracle、ElasticSearch等相关大数据技术, 并实际落地 。

     本门课程全程实操, 不用担心基础不好, 老师将会从每个项目的演进过程详细分析, 手把手搭建开发环境, 每个功能点都有代码实操, 拿到生产上可以直接使用。

     本门课程大量生产上的较佳实践, 不仅能为技术选型提供参考, 也能大幅度提升个人的知识和技术水平, 学完可以胜任PB级大数据的开发和优化,面试中说出来都是亮点, 是跳槽、转型、加薪的利器 , 让你轻松实现华丽转身。  只要你有一点Hadoop、Spark和Scala基础,并且能保持学习的热情, 那么就跟随老师来吧。

课程章节
  • 第1课 生产项目的演进和改造思路
    • 1-1 三大生产项目(离线日志分析、企业预警实时监控、安全日志上报之Spark Streaming+Kafka保证数据零丢失)业务介绍
    • 1-2 离线分析和实时分析的场景介绍
    • 1-3 改造思路
    • 1-4 Hadoop、Spark、Hbase、Kafka、ElasticSearch等项目软件选型
  • 第2课 手把手从零搭建开发环境
    • 2-1 Hadoop、Spark、Hbase、Kafka、ElasticSearch软件安装
    • 2-2 IDEA安装
    • 2-3 Maven工程构建
    • 2-4 IDEA调试Spark项目
    • 2-5 Spark源码编译
    • 2-6 Spark作业提交方式
  • 第3课 安全日志上报之Spark Streaming+Kafka保证数据零丢失(一)
    • 3-1 Spark Streaming 整合Kafka的几种方式对比
    • 3-2 彻底搞懂Kafka 消息检索原理
    • 3-3 使用Spark Streaming进行Kafka 的Offset管理(Checkpoints、Hbase、Zookeeper、Kafka)
    • 3-4 Spark Streaming保存offset到zookeeper乱码处理
  • 第4课 安全日志上报之Spark Streaming+Kafka保证数据零丢失(二)
    • 4-1 实时作业的at most once、at least once、exactly once语义
    • 4-2 方案选型和对比(四种方案)
    • 4-3 Spark Streming + Kafka 如何获取每条消息的offset、partition以及每批次的from offset、end offset、count。
    • 4-4 Spark Streming + Kafka(消费) + Kafka(清洗后入)方案和代码实操
  • 第5课 安全日志上报之Spark Streaming+Kafka保证数据零丢失(三)
    • 5-1 SQL on Hbase 实现的几种方式
    • 5-2 Spark Streming + Kafka(消费) + Hbase(清洗后入)实现exactly once语义方案
    • 5-3 代码实操
    • 5-4 SQL on Hbase 性能优化
  • 第6课 安全日志上报之Spark Streaming+Kafka保证数据零丢失(四)
    • 6-1 Spark 整合Elasticsearch要点和案例实操
    • 6-2 Spark Streming + Kafka(消费) + Elasticsearch实现exactly once语义方案
    • 6-3 Spark Streming + Kafka(消费) +Oracle实现exactly once语义方案
    • 6-4 代码实操
    • 6-5 Spark 整合Elasticsearch性能优化
  • 第7课 离线日志分析项目(一)
    • 7-1 第一版问题分析
    • 7-2 ETL流程分析
    • 7-3 Flume+Nginx整合, 数据采集,日志分割
    • 7-4 Flume如何实现负载均衡和高可用
    • 7-5 日志收集系统架构(可用性、可靠性、可扩展性)
  • 第8课 离线日志分析项目(二)
    • 8-1 文件存储格式对比
    • 8-2 Spark 整合 Hive
    • 8-3 第二版项目方案的演进和代码实操
    • 8-4 解决小文件问题
    • 8-5 数据质量监控
  • 第9课 离线日志分析项目(三)
    • 9-1 理解Spark的Stage划分,如何定位导致数据倾斜代码,数据倾斜的场景和需要注意的地方
    • 9-2 广播变量使用的坑
    • 9-3 Spark整合Oracle的表需要注意的地方
    • 9-4 Spark作业调度异常问题案例汇总
  • 第10课 企业预警实时监控
    • 10-1 第一版: 使用Spark Streaming清洗数据(Hive动态分区等) + 代码实操
    • 10-2 第一版存在的问题分析
    • 10-3 第二版项目方案的演进和代码实操
    • 10-4 中文乱码问题解决
  • 第11课 通用解决方案
    • 11-1 Hbase 二级索引
    • 11-2 Hbase + ElasticSearch整合, 实现海量数据查询
    • 11-3 不通场景下, Spark 写数据到Oracle的方案(集群和Oracle服务器网络是否连通等. )
    • 11-4 Driver内存调优
    • 11-5 其他
课程环境

操作系统: Vmware + CentOS 6.5 , 物理机内存最好8G以上。

 开发工具: IDEA

 大数据: CDH 5.7

授课对象

有一点Hadoop、Spark的基础。 针对Hbase、Kafka、ES等基础不足的同学,讲师会根据项目需要对其核心部分进行详细介绍。 

收获预期

1. 掌握生产上企业级大数据的开发流程。

2. 可以胜任PB级大数据的开发和优化

3. 达到3年大数据从业经验的水平

学费

学费: ¥400 ( 固定学费: ¥300, 逆向学费: ¥100 )

新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取300元固定收费+100元逆向学费,学习圆满则逆向学费全额返还给学员!

炼数成金移动版 v2.0