Spark大数据技术与应用案例教程(双色)(含微课)

收藏
简介 目录 样张 更多
  • ISBN:978-7-5165-3407-6
  • 作者:周党华、魏星、冯欣悦
  • 出版社:航空工业
  • 适用层次:通用
  • 出版/修订日期:2024-08-01

本书采用项目任务式编写方法,以通俗易懂的语言、丰富实用的案例,全面系统地介绍了Spark大数据技术的相关知识和实际应用。本书内容全面、结构合理、循序渐进、学练结合,共分为7个项目,分别为Spark入门、Spark RDD——弹性分布式数据集、Spark SQL——结构化数据处理、Spark Streaming——实时计算框架、Spark MLlib——机器学习库、GraphFrames——图计算框架、综合案例——分析银行个人信贷业务数据。

本书可作为各类院校计算机科学与技术、大数据技术、数据科学与大数据技术、人工智能等相关专业的教材,也可供大数据技术爱好者自学使用。

项目一  Spark入门

任务一  搭建Spark单机环境

任务描述

一、Spark的发展历程

二、Spark的特点

三、Spark的应用场景

任务实施

任务二  搭建Spark集群环境

任务描述

一、Spark的生态系统

二、Spark的运行架构

三、Spark运行的基本流程

四、Spark的部署模式

任务实施

任务三  开发并运行应用程序

任务描述

一、编程语言的选择

二、PySpark命令

三、开发工具的选择

四、运行应用程序

任务实施

项目实训

项目考核

项目评价

 

项目二  Spark RDD——弹性分布式数据集

任务一  读取学生成绩创建RDD

任务描述

一、Spark RDD的执行过程

二、Spark RDD之间的依赖关系

三、Spark RDD的创建

任务实施

任务二  查询考试成绩排名前三的学生信息

任务描述

一、Spark RDD操作

二、Spark RDD持久化

三、Spark RDD分区

任务实施

任务三  计算学生的平均成绩

任务描述

一、键值对RDD的创建

二、键值对RDD的转换操作

任务实施

任务四  存储归纳后的学生成绩数据

任务描述

一、Spark中常见的文件格式

二、将RDD保存为特定文件

任务实施

项目实训

项目考核

项目评价

 

项目三  Spark SQL——结构化数据处理

任务一  配置Spark SQL

任务描述

一、Spark SQL概述

二、Spark SQL的架构

三、Spark SQL的运行原理

任务实施

任务二  查看商品信息

任务描述

一、DataFrame的创建

二、DataFrame的数据获取操作

任务实施

任务三  查询符合条件的商品信息

任务描述

一、DataFrame的数据查询方式

二、DataFrame的数据查询操作

任务实施

任务四  存储整理后的商品信息

任务描述

一、保存DataFrame数据到数据文件

二、保存DataFrame数据到MySQL数据库

三、保存DataFrame数据到Hive表

任务实施

项目实训

项目考核

项目评价

 

项目四  Spark Streaming——实时计算框架

任务一  编写Spark Streaming应用程序

任务描述

一、流数据和流计算

二、认识Spark Streaming

三、Spark Streaming的运行原理

四、编写Spark Streaming应用程序的基本步骤

任务实施

任务二  读取电影评分数据创建DStream

任务描述

一、基础数据源

二、高级数据源

任务实施

任务三  实时计算电影热度

任务描述

一、DStream的转换操作

二、DStream的输出操作

任务实施

项目实训

项目考核

项目评价

 

项目五  Spark MLlib——机器学习库

任务一  加载鸢尾花数据

任务描述

一、认识机器学习

二、Spark MLlib概述

三、Spark MLlib的基本数据类型

四、Spark MLlib的运行流程

任务实施

任务二  提取鸢尾花的特征

任务描述

一、特征提取

二、特征转换

三、特征选择

任务实施

任务三  使用聚类算法处理鸢尾花数据

任务描述

一、聚类算法概述

二、K-Means算法

三、高斯混合模型

任务实施

任务四  使用分类算法处理鸢尾花数据

任务描述

一、分类算法概述

二、朴素贝叶斯算法

三、决策树分类算法

任务实施

项目实训

项目考核

项目评价

 

项目六  GraphFrames——图计算框架

任务一  配置GraphFrames

任务描述

一、认识图

二、GraphFrames概述

三、GraphFrames的应用场景

任务实施

任务二  分析社交网站的用户影响力

任务描述

一、图的创建

二、图的数据操作

三、图的常用算法

任务实施

项目实训

项目考核

项目评价

 

项目七  综合案例——分析银行个人信贷业务数据

任务一  预处理银行个人信贷业务数据

任务描述

任务实施

任务二  多角度分析银行个人信贷业务的逾期还款情况

任务描述

任务实施

任务三  实时统计逾期还款的用户数量

任务描述

任务实施

任务四  预测银行贷款用户是否存在逾期还款的风险

任务描述

任务实施

项目评价

 

参考文献

微课 教材练习 资料下载 ....
立即下载
价格:¥59.80
加入购物车立即购买