课程信息
  • 课程首页
  • 拼团活动
  • 专业套餐
  • 优惠活动
  • 我的课程
  • 站内消息
  • 站内提醒
  • 我的钱包
  • 奖学金
  • 道具 | 抵价券
  • 登录


【快班】Hive数据仓库实践

数据仓库

11周

41人

此课程所属【hadoop大数据工程师职业方向】专业,专业内有不少于15门推荐课程,目前平台推出【专业课程0元学】活动,只需0元即可在所有的专业课程中任选5门学习,超值优惠,助您快速成长!点击这里了解

讲师
zhuguangbin
课程简介

      互联网时代下,数据量的急剧增长,传统的数据仓库已经无法满足。Hive作为Hadoop生态圈中的数据仓库解决方案随着开源社区的快速发展而逐步成熟,慢慢的在某些场景下替代企业级数据仓库,成为各大互联网公司数据仓库建设的必选方案,可以这么说,Hive已经成为大数据数据仓库的事实标准。

       本课程将从Hive的基本概念入手,深入解析Hive的使用方式、HQL语法以及常用的仓库模式设计和Hive优化方法,并对未来Hive的发展和高级特性做一些简单介绍,并通过最后的案例实践巩固学习内容。通过本课程的学习,将能够胜任大多数互联网场景下的大数据分析和数据开发任务。

课程章节
  • 第1课 Hadoop与MapReduce
    • 1-1 Hive在Hadoop Ecosystem中的地位
    • 1-2 Hive的版本演进与目前现状
    • 1-3 课程实践环境说明
    • 1-4 实操: Hive/Hadoop预备环境安装
  • 第2课 Hive的基本概念与QuickStart
    • 2-1 Hive的安装部署
    • 2-2 Hive的基本架构
    • 2-3 启动Hive
    • 2-4 Hive命令行
    • 2-5 HiveServer与JDBC/ODBC
    • 2-6 实操: Hive命令行和ThriftServer基本使用
  • 第3课 数据类型与文件格式
    • 3-1 Hive支持的基本数据类型
    • 3-2 Hive支持的集合数据类型
    • 3-3 Hive支持的文件格式与优劣对比
  • 第4课 HiveQL:数据定义
    • 4-1 Hive数据模型
    • 4-2 Database
    • 4-3 Table
    • 4-4 Partition
    • 4-5 自定义存储格式
    • 4-6 自定义表属性
    • 4-7 常用创建/删除/修改表语法
    • 4-8 实操: HQL 创建/删除/修改操作练习
  • 第5课 HiveQL:数据操作
    • 5-1 加载数据(LoadData)
    • 5-2 从查询计算结果加载数据(Insert Table Select)
    • 5-3 动态分区(DynamicPartitioning)
    • 5-4 CTAS(CreateTableAsSelect)
    • 5-5 导出数据
    • 5-6 实操: 练习以上数据加载计算和导出操作
  • 第6课 HiveQL:数据查询
    • 6-1 从最简单的开始
    • 6-2 Select … From
    • 6-3 Where条件
    • 6-4 Group By条件
    • 6-5 Join
    • 6-6 排序(OrderBy/SortBy)
    • 6-7 ClusterBy/DistributeBy
    • 6-8 抽样(Sampling)
    • 6-9 Union
    • 6-10 实操: 练习以上各种查询语法
  • 第7课 Hive函数与自定义函数
    • 7-1 查看与调用函数
    • 7-2 常用标准函数(UDF)
    • 7-3 UDAF
    • 7-4 UDTF
    • 7-5 UDF/UDAF/UDTF开发
    • 7-6 实操: 练习并完成UDF Java开发的作业
  • 第8课 Hive常用模式设计
    • 8-1 按天做Partition
    • 8-2 分桶(Bucket)
    • 8-3 压缩
    • 8-4 表Schema变更
    • 8-5 实操: 练习以上几种仓库设计模式
  • 第9课 Hive调优
    • 9-1 Hive参数说明
    • 9-2 Explain查看执行计划
    • 9-3 控制Map/Reduce数
    • 9-4 并行执行
    • 9-5 推测执行
    • 9-6 Join优化
    • 9-7 数据倾斜问题
    • 9-8 动态分区优化
    • 9-9 实操: 练习并理解不同优化参数下的执行逻辑
  • 第10课 Hive新特性与其他
    • 10-1 Hive on Tez
    • 10-2 Hive on Spark
    • 10-3 Hive与HBase集成
    • 10-4 HCatalog
  • 第11课 案例
    • 11-1 广告用户行为分析场景预备
    • 11-2 构建Hive表与数据处理
    • 11-3 常用分析案例
    • 11-4 实操: 完成以上案例作业
课程环境

本课程实践环境需要在虚拟机环境下操作,因此建议学员提前准备好虚拟机环境,推荐安装Virtualbox虚拟机,无论是Windows/Ubuntu/Mac 都支持

授课对象

面向数据分析和数据开发,希望从事和进一步了解互联网数据仓库以及数据分析的学员

收获预期

掌握Hive的基本原理,掌握Hive的基本使用,掌握HiveQL的基本语法和常用优化措施,了解Hive数据仓库设计的方法,能够胜任数据仓库分析和数据开发的角色

学费

学费: ¥400 ( 固定学费: ¥300, 逆向学费: ¥100 )

新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取300元固定收费+100元逆向学费,学习圆满则逆向学费全额返还给学员!

炼数成金移动版 v2.0