大数据技术基础(第2版)(双色)(含微课)

收藏
简介 目录 样张 更多
  • ISBN:978-7-5165-2792-4
  • 作者:覃事刚、姚瑶、李奇
  • 出版社:航空工业
  • 适用层次:通用
  • 出版/修订日期:2024-04-01

本书从初学者的角度出发,系统地介绍了大数据的基础知识和前沿技术。全书共8章,内容包括大数据概述、大数据处理平台Hadoop、数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化、大数据思维与安全、城市空气质量大数据分析实战。

本书深入浅出、内容丰富、选材新颖、强调应用,注重与时俱进,可作为各类院校大数据、计算机、信息管理等相关专业的教材,也可作为大数据开发初学者及从业者的参考书。

1  大数据概述

本章导读

学习目标

兴国利民:大数据为美好生活赋能

1.1  大数据的概念和特征

1.1.1  什么是大数据

1.1.2  大数据的特征

1.1.3  大数据的发展

1.2  大数据的处理流程

1.2.1  数据采集与预处理

1.2.2  数据存储与管理

1.2.3  数据处理与分析

1.2.4  数据可视化

1.3  大数据平台架构和集群

1.3.1  大数据平台架构

1.3.2  大数据集群

1.4  大数据的行业应用

1.4.1  互联网与电商行业

1.4.2  电信与交通行业

1.4.3  金融与教育行业

1.4.4  健康医疗行业

1.4.5  政务管理行业

1.5  大数据与其他新兴技术的关系

1.6  实战演练——使用Power BI分析产品销售情况

本章小结

课后习题

 

2  大数据处理平台Hadoop

本章导读

学习目标

使命担当:星环科技的创新与超越之路

2.1  Hadoop及其生态系统

2.1.1  Hadoop简介

2.1.2  Hadoop生态系统

2.2  Hadoop的运行模式

2.2.1  单机模式

2.2.2  伪分布式模式

2.2.3  完全分布式模式

2.3  安装部署Hadoop集群

2.3.1  准备集群环境

2.3.2  安装Hadoop

2.4  实战演练——在Eclipse中搭建Hadoop开发环境

2.4.1  Windows中安装和配置JDK

2.4.2  Windows中安装和配置Eclipse

本章小结

课后习题

 

3  数据采集与预处理

本章导读

学习目标

保驾护航:公交驾驶员生命体征数据采集

3.1  数据采集

3.1.1  数据的主要来源

3.1.2  常用的数据采集方法

3.2  网络爬虫技术

3.2.1  什么是网络爬虫

3.2.2  网络爬虫的分类和应用

3.2.3  常用的网络爬虫工具

3.2.4  网络爬虫工具的工作流程

3.3  数据预处理

3.3.1  数据审查

3.3.2  数据清洗

3.3.3  数据转换

3.3.4  数据验证

3.3.5  数据脱敏

3.4  实战演练——用八爪鱼工具采集并预处理房源数据

本章小结

课后习题

 

4  数据存储与管理

本章导读

学习目标

中国骄傲:蚂蚁自研数据库OceanBase登顶国际权威榜单

4.1  数据存储与管理概述

4.1.1  大数据的数据类型

4.1.2  数据管理技术的发展

4.1.3  NoSQL数据库和NewSQL数据库

4.1.4  云存储和云数据库

4.2  分布式文件系统HDFS

4.2.1  HDFS简介

4.2.2  HDFS的运行机制

4.2.3  HDFS的工作流程

4.2.4  实战演练——HDFS编程基本操作

4.3  分布式数据库HBase

4.3.1  HBase简介

4.3.2  HBase的数据模型

4.3.3  HBase的工作原理

4.3.4  实战演练——安装并使用HBase数据库

4.4  数据仓库Hive

4.4.1  Hive简介

4.4.2  Hive的工作原理

4.4.3  Hive的执行流程

4.4.4  实战演练——安装并使用Hive数据仓库

本章小结

课后习题

 

5  数据处理与分析

本章导读

学习目标

卓越创新:华科师生团队荣获2021年图计算挑战赛全球冠军

5.1  大数据计算模式

5.1.1  常见大数据计算模式

5.1.2  离线计算与实时计算

5.2  分布式并行编程模型MapReduce

5.2.1  MapReduce简介

5.2.2  MapReduce的工作流程

5.2.3  MapReduce程序编写步骤

5.2.4  实战演练——MapReduce二次排序编程

5.3  分布式资源管理器YARN

5.3.1  YARN基本架构及组件

5.3.2  YARN的工作流程

5.4  分布式协调服务ZooKeeper

5.4.1  ZooKeeper简介

5.4.2  ZooKeeper的应用场景

5.4.3  ZooKeeper集群的总体架构

5.5  基于内存的大数据处理引擎Spark

5.5.1  Spark简介

5.5.2  SparkHadoop对比分析

5.5.3  Spark的运行架构和工作流程

5.5.4  实战演练——安装Spark并编写单词统计程序

本章小结

课后习题

 

6  数据可视化

本章导读

学习目标

科技之光:光启元用3D数据可视化助力抗击新冠肺炎疫情

6.1  数据可视化概述

6.1.1  什么是数据可视化

6.1.2  数据可视化的意义与作用

6.1.3  数据可视化的特征与趋势

6.2  数据可视化方法

6.2.1  文本可视化

6.2.2  网络可视化

6.2.3  时空数据可视化

6.3  数据可视化工具

6.4  实战演练——使用FineReport制作数据可视化报表

本章小结

课后习题

 

7  大数据思维与安全

本章导读

学习目标

依法治网:筑牢数据长城,维护国家安全

7.1  大数据思维

7.1.1  全样思维

7.1.2  容错思维

7.1.3  相关思维

7.2  大数据安全

7.2.1  大数据面临的安全问题

7.2.2  大数据带来的伦理问题

7.2.3  大数据安全治理

7.3  数据开放共享

7.3.1  数据开放共享的现实意义

7.3.2  数据开放共享的挑战和对策

7.4  实战演练——解读《深圳经济特区数据条例》

本章小结

课后习题

 

8  城市空气质量大数据分析实战

本章导读

学习目标

生态文明:让青山常在、绿水长流、空气常新

8.1  案例简介

8.2  准备数据

8.3  分析数据

8.3.1  编程实现

8.3.2  运行程序

8.3.3  对结果进行排序

8.4  数据可视化

本章小结

 

参考文献

微课 教材练习 资料下载 ....
立即下载
价格:¥59.80
加入购物车立即购买