Hadoop大数据处理实战(双色)(含微课)

收藏
简介 目录 样张 更多
  • ISBN:978-7-313-22423-1
  • 作者:康开锋、赵克宝、刘斌
  • 出版社:上海交大
  • 适用层次:通用
  • 出版/修订日期:2024-04-01

本书以开发实战为原则,以Hadoop及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共10章,内容包括Hadoop基础知识、搭建Hadoop分布式集群、搭建Eclipse开发环境、Hadoop分布式文件系统、HadoopI/O操作、MapReduce基础与编程、Hive实战、HBase实战、Spark实战、天气数据分析实战。

本书内容全面、案例典型、实用性强,且配套资源丰富,涵盖程序源代码、软件资源、习题答案、优质课件和核心内容的视频讲解等,可作为各类院校计算机、大数据、信息管理等相关专业的教材。

1  Hadoop基础知识

本章导读

学习目标

素质目录

1.1  Hadoop概述

1.1.1  什么是Hadoop

1.1.2  Hadoop的产生与发展

1.1.3  Hadoop的版本变迁

1.1.4  Hadoop的基本特性

1.2  Hadoop生态系统

1.3  HadoopSpark对比分析

1.4  Hadoop的应用场景

1.4.1  Hadoop在互联网领域的应用

1.4.2  Hadoop在通信领域的应用

1.4.3  Hadoop在交通领域的应用

本章小结

思考与练习

 

2  搭建Hadoop分布式集群

本章导读

学习目标

素质目录

2.1  创建虚拟机并安装CentOS 7

2.1.1  安装虚拟机软件

2.1.2  下载CentOS 7镜像文件

2.1.3  创建新的虚拟机

2.1.4  安装CentOS 7操作系统

2.2  配置虚拟机集群环境

2.2.1  修改主机名和设置固定IP

2.2.2  关闭防火墙和新建安装目录

2.2.3  安装和配置JDK

2.2.4  克隆虚拟机和配置主机IP映射

2.2.5  配置集群各节点SSH免密码登录

2.3  搭建Hadoop高可用集群

2.3.1  安装与配置ZooKeeper

2.3.2  安装与配置Hadoop

2.3.3  启动与测试Hadoop

本章小结

思考与练习

 

3  搭建Eclipse开发环境

本章导读

学习目标

素质目录

3.1  搭建Hadoop伪分布式环境

3.2  Eclipse中配置Hadoop开发环境

3.2.1  Windows中安装和配置JDK

3.2.2  Windows中安装和配置Eclipse

3.3  演示Hadoop自带的单词统计程序

本章小结

思考与练习

 

4  Hadoop分布式文件系统

本章导读

学习目标

素质目录

4.1  HDFS概述

4.1.1  HDFS的设计目标和不足

4.1.2  HDFS的体系结构

4.2  数据错误与恢复

4.2.1  block损坏处理

4.2.2  NameNodeDataNode错误处理

4.3  HDFS的运行机制

4.3.1  副本机制

4.3.2  心跳机制

4.3.3  副本放置与机架感知策略

4.3.4  Federation机制

4.3.5  HA机制

4.3.6  安全模式

4.3.7  垃圾回收

4.4  HDFS的工作流程

4.4.1  启动流程

4.4.2  读流程

4.4.3  写流程

4.4.4  删除流程

4.5  HDFS的基本操作

4.5.1  HDFS命令行操作

4.5.2  HDFS Java API操作

本章小结

思考与练习

 

5  HadoopI/O操作

本章导读

学习目标

素质目录

5.1  数据完整性

5.1.1  HDFS的数据完整性

5.1.2  验证数据完整性

5.2  序列化与反序列化

5.2.1  序列化

5.2.2  反序列化

5.3  数据压缩

5.3.1  压缩与解压缩方法Codec

5.3.2  压缩与输入分片

5.4  Hadoop文件的数据结构

5.4.1  SequenceFile

5.4.2  MapFile

本章小结

思考与练习

 

6  MapReduce基础与编程

本章导读

学习目标

素质目录

6.1  MapReduce概述

6.1.1  分布式并行计算

6.1.2  MapReduce的含义

6.1.3  MapReduce的特点

6.2  MapReduce的工作流程

6.2.1  输入分片和数据格式化

6.2.2  Map过程

6.2.3  Shuffle过程

6.2.4  Reduce过程

6.3  案例解析——单词统计编程

6.3.1  案例描述

6.3.2  设计思路

6.3.3  执行过程

6.3.4  编程实现

6.3.5  运行程序

6.3.6  数据优化

6.4  案例解析——二次排序编程

6.4.1  案例描述

6.4.2  设计思路

6.4.3  编程实现

6.4.4  运行程序

本章小结

思考与练习

 

7  Hive实战

本章导读

学习目标

素质目录

7.1  Hive概述

7.1.1  什么是Hive

7.1.2  Hive的文件存储格式

7.1.3  Hive支持的数据类型

7.1.4  Hive中常用的函数

7.2  安装与验证Hive

7.2.1  安装MySQL

7.2.2  安装和配置Hive

7.2.3  验证Hive

7.3  HiveQL详解

7.3.1  数据库操作

7.3.2  表操作

7.3.3  数据查询

7.3.4  索引和视图

7.4  Hive复合数据类型

7.5  用户自定义函数

7.5.1  编写UDF

7.5.2  编写UDAF

7.6  HiveJDBC操作

7.7  数据迁移工具Sqoop

7.7.1  安装和配置Sqoop

7.7.2  MySQL数据导入到Hive

7.7.3  Hive数据导出到MySQL

本章小结

思考与练习

 

8  HBase实战

本章导读

学习目标

素质目录

8.1  HBase概述

8.1.1  什么是HBase

8.1.2  逻辑视图与模式设计

8.2  安装HBase

8.2.1  单机模式

8.2.2  伪分布式模式

8.2.3  完全分布式模式

8.3  HBase Shell命令操作

8.4  HBase Java API操作

8.5  Phoenix实战

8.5.1  安装Phoenix

8.5.2  Phoenix基础操作

本章小结

思考与练习

 

9  Spark实战

本章导读

学习目标

素质目录

9.1  Spark概述

9.1.1  什么是Spark

9.1.2  Spark的主要组件

9.2  安装Spark

9.2.1  安装Scala

9.2.2  伪分布式模式

9.2.3  完全分布式模式

9.3  Spark RDD

9.3.1  转化算子

9.3.2  行动算子

9.3.3  RDD依赖关系

9.4  Spark Java API操作

9.4.1  新建Maven项目

9.4.2  转化操作

9.4.3  行动操作

9.5  案例解析——单词统计编程

本章小结

思考与练习

 

10  天气数据分析实战

本章导读

学习目标

素质目录

10.1  案例简介

10.1.1  背景介绍

10.1.2  案例目的

10.1.3  案例流程

10.2  数据采集

10.2.1  分析页面

10.2.2  采集数据

10.2.3  SqoopMySQL数据导入Hive

10.3  数据预处理

10.3.1  缺失值处理

10.3.2  数据格式化

10.3.3  数据去重

10.3.4  数据分区

10.4  数据分析

10.4.1  月气温分析

10.4.2  各城市每月中晴天的天数统计

10.4.3  北京市霾天气的初步分析

本章小结

 

参考文献

微课 教材练习 资料下载 ....
立即下载
价格:¥68.00
加入购物车立即购买