本书基于Python语言编写,通过通俗易懂的语言、丰富实用的案例,深入浅出地介绍了自然语言处理的基础理论及应用案例,逐步引导学生走进自然语言处理的世界,深入研究自然语言处理的核心技术。全书共9个项目,内容涵盖搭建自然语言处理开发环境、构建语料库、词法分析、关键词提取、文本向量化、句法分析、语义分析、情感分析、智能问答机器人的设计与实现。本书可作为各类院校人工智能、大数据技术、计算机等相关专业的教材,也可供相关科技人员参考使用。
基础篇
项目1 搭建自然语言处理
开发环境
项目目标
项目描述
项目分析
项目准备
1.1 自然语言处理概述
1.1.1 自然语言处理的概念
1.1.2 自然语言处理的应用领域
1.1.3 自然语言处理的3个层面
1.2 机器学习、深度学习与自然语言处理
1.2.1 三者之间的关系
1.2.2 用于自然语言处理的机器学习常用算法
1.3 自然语言处理的一般流程
1.3.1 文本数据获取
1.3.2 文本预处理
1.3.3 特征提取
1.3.4 建模
1.3.5 评估模型
1.4 自然语言工具包NLTK
项目实施——搭建自然语言处理开发环境
项目实训
项目总结
项目考核
项目评价
项目2 构建语料库
项目目标
项目描述
项目分析
项目准备
2.1 语料库基础
2.1.1 语料库简介
2.1.2 语料库的类型
2.1.3 语料库的构建原则
2.2 获取语料库
2.2.1 获取NLTK中的语料库
2.2.2 获取网络在线语料库
2.3 自然语言处理中的正则表达式
2.3.1 正则表达式函数
2.3.2 正则表达式的元字符
项目实施——“金庸作品语料库”的构建与使用
项目实训
项目总结
项目考核
项目评价
技术篇
项目3 词法分析
项目目标
项目描述
项目分析
项目准备
3.1 中文分词技术
3.1.1 基于规则的分词方法
3.1.2 基于统计的分词方法
3.1.3 中文分词工具——jieba
3.2 词性标注
3.2.1 词性标注概述
3.2.2 词性标注规范
3.2.3 使用jieba进行词性标注
3.3 命名实体识别
3.3.1 命名实体识别概述
3.3.2 基于CRF模型的命名实体识别
项目实施——基于CRF模型的中文命名实体识别
项目实训
项目总结
项目考核
项目评价
项目4 关键词提取
项目目标
项目描述
项目分析
项目准备
4.1 关键词提取概述
4.2 关键词提取算法
4.2.1 TF-IDF算法
4.2.2 TextRank算法
4.2.3 主题模型算法
4.3 词云
项目实施——中文文本自动文摘
项目实训
项目总结
项目考核
项目评价
项目5 文本向量化
项目目标
项目描述
项目分析
项目准备
5.1 文本向量化概述
5.2 文本的离散式表示
5.2.1 独热编码
5.2.2 词袋模型
5.3 文本的分布式表示
5.3.1 Word2Vec模型
5.3.2 Doc2Vec模型
项目实施——新闻文本的相似度计算
项目实训
项目总结
项目考核
项目评价
项目6 句法分析
项目目标
项目描述
项目分析
项目准备
6.1 句法分析概述
6.1.1 句法分析的基本概念
6.1.2 句法分析任务的基本类型
6.1.3 句法分析的数据集与评测方法
6.2 句法分析的常用算法
6.2.1 PCFG算法
6.2.2 最大间隔马尔可夫网络
6.2.3 移进-归约算法
项目实施——基于PCFG算法的中文句法分析
项目实训
项目总结
项目考核
项目评价
项目7 语义分析
项目目标
项目描述
项目分析
项目准备
7.1 语义分析的基本概念
7.2 词义消歧
7.2.1 基于规则的词义消歧
7.2.2 基于统计的词义消歧
7.2.3 基于词典的词义消歧
7.3 语义角色标注
7.3.1 格语法
7.3.2 基于统计机器学习技术的语义角色标注
7.4 深层语义推理
7.4.1 语义网络
7.4.2 概念依存
项目实施——基于语义网络的中文语义分析
项目实训
项目总结
项目考核
项目评价
项目8 情感分析
项目目标
项目描述
项目分析
项目准备
8.1 情感分析概述
8.2 常用的情感分析方法
8.2.1 基于情感词典的分析方法
8.2.2 基于机器学习的分析方法
8.2.3 基于深度学习的分析方法
项目实施——基于长短期记忆神经网络的文本情感分析
项目实训
项目总结
项目考核
项目评价
应用篇
项目9 智能问答机器人的设计与实现
项目目标
项目描述
项目分析
项目准备
项目实施——智能问答机器人的设计与实现
项目实训
项目总结
项目考核
项目评价
参考文献