Hive数据仓库技术与应用案例教程(双色)(含微课)

收藏
简介 目录 样张 更多
  • ISBN:978-7-5165-3656-8
  • 作者:赵成芳、刘馨、李红涛
  • 出版社:航空工业
  • 适用层次:通用
  • 出版/修订日期:2024-01-01

本书采用项目式编写方法,以合理的结构、通俗易懂的语言、丰富实用的案例、学练结合的讲解方式,全面系统、循序渐进地介绍了Hive数据仓库的相关技术和实际应用。全书共分为8个项目,分别为数据仓库与Hive、Hive基础、Hive数据定义、Hive数据导入与导出、Hive数据查询、Hive函数、Hive性能优化和分析二手房数据。

本书可作为各类院校计算机科学与技术、大数据技术、数据科学与大数据技术、人工智能等相关专业的教材,也可供大数据技术爱好者自学使用。

项目1  数据仓库与Hive

项目目标

项目描述

项目分析

项目准备

1.1  数据仓库概述

1.1.1  数据仓库的特征

1.1.2  数据仓库相关概念

1.1.3  数据仓库模型设计

1.1.4  维度建模法

1.1.5  数据仓库分层架构

1.2  Hive概述

1.2.1  Hive实现的功能

1.2.2  Hive的体系结构

1.2.3  Hive的运行原理

1.2.4  Hive的部署模式

项目实施1——采用嵌入模式部署Hive

项目实施2——采用本地模式部署Hive

项目实施3——采用远程模式部署Hive

项目实训

项目总结

项目考核

项目评价

 

项目2  Hive基础

项目目标

项目描述

项目分析

项目准备

2.1  Hive数据类型

2.1.1  基本数据类型

2.1.2  复杂数据类型

2.1.3  数据类型转换

2.2  Hive运算符

2.2.1  算术运算符

2.2.2  关系运算符

2.2.3  逻辑运算符

2.2.4  复杂运算符

2.2.5  运算符的优先级

2.3  Hive表的存储格式

项目实施——设计影视分析数据仓库

项目实训

项目总结

项目考核

项目评价

 

项目3  Hive数据定义

项目目标

项目描述

项目分析

项目准备

3.1  数据库的基本操作

3.1.1  创建数据库

3.1.2  显示数据库

3.1.3  查看数据库信息

3.1.4  切换数据库

3.1.5  修改数据库信息

3.1.6  删除数据库

3.2  表的基本操作

3.2.1  创建表

3.2.2  显示表

3.2.3  查看表信息

3.2.4  修改表

3.2.5  删除表

3.3  外部表

3.4  分区表

3.4.1  创建分区表

3.4.2  显示分区

3.4.3  添加分区

3.4.4  查看分区信息

3.4.5  移动分区

3.4.6  删除分区

3.5  桶表

3.6  临时表

3.7  视图

3.7.1  创建视图

3.7.2  显示视图

3.7.3  查看视图信息

3.7.4  删除视图

项目实施——定义影视分析数据仓库的存储结构

项目实训

项目总结

项目考核

项目评价

 

项目4  Hive数据导入与导出

项目目标

项目描述

项目分析

项目准备

4.1  数据导入

4.1.1  LOAD加载数据

4.1.2  INSERT插入数据

4.1.3  CREATE…AS导入数据

4.1.4  IMPORT导入表

4.2  数据导出

4.2.1  INSERT OVERWRITE导出数据

4.2.2  EXPORT导出表

项目实施——向影视分析数据仓库中导入数据

项目实训

项目总结

项目考核

项目评价

 

项目5  Hive数据查询

项目目标

项目描述

项目分析

项目准备

5.1  简单查询

5.2  条件查询

5.3  分组查询

5.4  排序查询

5.4.1  全局排序查询

5.4.2  内部排序查询

5.4.3  分区排序查询

5.5  连接查询

5.5.1  内连接查询

5.5.2  左外连接查询

5.5.3  右外连接查询

5.5.4  全外连接查询

5.5.5  左半连接查询

5.5.6  笛卡尔积连接查询

5.6  抽样查询

5.6.1  桶表抽样查询

5.6.2  数据块抽样查询

5.6.3  随机抽样查询

项目实施——查询并分析电影评分数据

项目实训

项目总结

项目考核

项目评价

 

项目6  Hive函数

项目目标

项目描述

项目分析

项目准备

6.1  内置函数

6.1.1  数学函数

6.1.2  聚合函数

6.1.3  集合函数

6.1.4  数据类型转换函数

6.1.5  日期/时间函数

6.1.6  条件函数

6.1.7  字符串函数

6.1.8  表生成函数

6.2  自定义函数

6.2.1  用户自定义函数

6.2.2  用户自定义表生成函数

6.2.3  用户自定义聚合函数

项目实施——使用Hive函数操作电影评分数据

项目实训

项目总结

项目考核

项目评价

 

项目7  Hive性能优化

项目目标

项目描述

项目分析

项目准备

7.1  存储优化

7.2  参数优化

7.2.1  配置MapReduce压缩

7.2.2  开启本地模式

7.2.3  开启并行执行

7.2.4  开启严格模式

7.2.5  合理设置Map个数

7.2.6  合理设置Reduce个数

7.2.7  合并小文件

7.2.8  开启数据倾斜处理功能

7.3  查询优化

7.3.1  字段裁剪和分区裁剪

7.3.2  JOIN优化

7.3.3  COUNT优化

项目实施——优化Hive性能

项目实训

项目总结

项目考核

项目评价

 

项目8  分析二手房数据

项目目标

8.1  设计二手房数据仓库

8.1.1  需求分析

8.1.2  数据仓库分层设计

8.2  定义二手房数据仓库的存储结构

8.2.1  定义源数据层的存储结构

8.2.2  定义数据仓库层的存储结构

8.3  向二手房数据仓库中导入数据

8.3.1  向源数据层导入数据

8.3.2  向数据仓库层导入数据

8.4  查询并分析二手房数据

8.5  导出二手房数据

 

参考文献

微课 教材练习 资料下载 ....
立即下载
价格:¥59.80
加入购物车立即购买