数据采集与预处理案例教程(双色)(含微课)(AI赋能版)

收藏
简介 目录 样张 更多
  • ISBN:978-7-5165-4456-3
  • 作者:周扬帆、杨隆平、李晓岭
  • 出版社:航空工业
  • 适用层次:通用
  • 出版/修订日期:2026-03-01

本书采用项目式编写方式,从实用角度出发,系统全面地介绍了数据采集与预处理的相关知识和工具。全书共分为8个项目,包括数据采集与预处理准备、使用网络爬虫采集网络数据、使用Flume采集日志数据、使用Kafka采集日志数据、使用Pandas预处理数据、使用Kettle预处理数据、使用其他常用工具预处理数据、项目实战——二手房数据采集与预处理。

本书可作为各类院校数据科学与大数据技术、大数据技术、大数据管理与应用、人工智能工程技术等专业的教材,也可供相关从业人员参考使用。

项目1  数据采集与预处理准备

项目目标

项目描述

项目分析

项目准备

1.1  数据

1.1.1  数据概述

1.1.2  数据的主要来源

1.1.3  数据分析流程

1.2  数据采集

1.2.1  数据采集概述

1.2.2  数据采集常用工具

1.3  数据预处理

1.3.1  数据预处理概述

1.3.2  数据预处理基本操作

1.3.3  数据预处理常用工具

项目实施1——安装和配置JDK

项目实施2——安装和配置Hadoop

项目实施3——安装和配置MySQL

项目实施4——安装和配置Python

项目实施5——安装和配置PyCharm

项目实训

项目考核

项目评价

 

项目2  使用网络爬虫采集网络数据

项目目标

项目描述

项目分析

项目准备

2.1  网络爬虫概述

2.1.1  网络爬虫的基本原理

2.1.2  网络爬虫的工作流程

2.1.3  网络爬虫的合法性

2.2  网页基础知识

2.2.1  HTTP基本原理

2.2.2  HTML

2.2.3  HTML DOM

2.2.4  CSS选择器

2.3  Requests库

2.3.1  Requests库概述

2.3.2  请求方法

2.3.3  传递URL参数

2.3.4  定制请求头

2.4  BeautifulSoup库

2.4.1  BeautifulSoup库概述

2.4.2  BeautifulSoup库的基本用法

2.4.3  使用CSS选择器解析网页

2.5  存储数据至MySQL数据库

2.6  Scrapy框架

2.6.1  Scrapy框架概述

2.6.2  Scrapy框架的应用

项目实施——使用网络爬虫采集豆瓣读书TOP 250网站的图书数据

项目实训

项目考核

项目评价

 

项目3  使用Flume采集日志数据

项目目标

项目描述

项目分析

项目准备

3.1  Flume概述

3.2  Flume的工作原理

3.3  Flume Agent核心组件的配置方法

3.3.1  Source

3.3.2  Channel

3.3.3  Sink

3.4  Flume常用内置拦截器

3.4.1  时间戳拦截器

3.4.2  主机拦截器

3.4.3  正则表达式过滤拦截器

3.5  Flume的使用

项目实施1——安装和配置Flume

项目实施2——使用Flume采集模拟的日志数据到HDFS

项目实训

项目考核

项目评价

 

项目4  使用Kafka采集日志数据

项目目标

项目描述

项目分析

项目准备

4.1  Kafka概述

4.2  Kafka的基本术语

4.3  Kafka的基本结构和工作机制

4.3.1  Kafka的基本结构

4.3.2  Kafka的工作机制

4.4  Kafka与Flume的区别和联系

4.5  Kafka的使用

项目实施1——安装和使用Kafka

项目实施2——使用Flume和Kafka采集模拟的日志数据到MySQL数据库

项目实训

项目考核

项目评价

 

项目5  使用Pandas预处理数据

项目目标

项目描述

项目分析

项目准备

5.1  Pandas概述

5.2  Pandas的数据结构

5.2.1  Series对象

5.2.2  DataFrame对象

5.3  Pandas的基本功能

5.3.1  数据的选取

5.3.2  数据的修改、增加与删除

5.3.3  数据的保存与导入

5.4  Pandas数据预处理

5.4.1  数据的清洗

5.4.2  数据的合并

5.4.3  数据的聚合与分组

5.4.4  数据的编码

5.4.5  数据的离散化

项目实施——使用Pandas预处理某高校学生体质指数数据

项目实训

项目考核

项目评价

 

项目6  使用Kettle预处理数据

项目目标

项目描述

项目分析

项目准备

6.1  Kettle概述

6.2  Kettle的基本术语和核心工具

6.2.1  Kettle的基本术语

6.2.2  Kettle的核心工具

6.3  Kettle的工作界面

6.3.1  主工作界面

6.3.2  转换工作界面

项目实施1——安装Kettle和MySQL驱动包

项目实施2——使用Kettle预处理某连锁餐厅订单数据

项目实训

项目考核

项目评价

 

项目7  使用其他常用工具预处理数据

项目目标

项目描述

项目分析

项目准备

7.1  Pig

7.1.1  Pig概述

7.1.2  Pig Latin基础知识

7.2  OpenRefine

7.2.1  OpenRefine概述

7.2.2  OpenRefine的操作界面

7.3  AI工具

项目实施1——使用Pig预处理数据

项目实施2——使用OpenRefine预处理数据

项目实训

项目考核

项目评价

 

项目8  项目实战——二手房数据采集与预处理

项目目标

项目描述

项目分析

项目准备

8.1  需求分析

8.2  数据采集

8.2.1  分析请求的URL和HTML源代码

8.2.2  爬取并解析网页

8.2.3  存储数据至MySQL数据库

8.2.4  调用函数

8.2.5  运行爬虫程序并查看数据

8.3  数据预处理

8.3.1  新建转换并导入数据

8.3.2  数据清洗

8.3.3  数据转换

8.3.4  数据存储

8.3.5  执行转换并查看数据

项目评价

 

参考文献

微课 教材练习 资料下载 ....
立即下载
价格:¥49.80
加入购物车立即购买