Python数据分析与应用
第8章 文本数据分析
本章共 23 题,可按题型筛选。
在自然语言处理工具包的使用上,下列描述正确的是:
jieba 分词的三种模式中,“全模式”的特点是:
在使用 NLTK 进行英文分词时,如果调用 nltk.word_tokenize() 报错,通常是因为缺少哪个 模型?
词性标注(POS Tagging)的主要任务是:
关于词形归一化(Normalization),下列说法错误的是:
在 NLTK 的通用词性标注集中,标签 VBG 通常代表:
删除停用词的主要目的是:
基于情感词典的情感极性分析中,若情感词前出现程度副词(如“非常”),计算逻辑通常 是:
计算文本相似度时,将文本映射到向量空间后,最常用的衡量指标是:
朴素贝叶斯算法在文本分类中的核心思想是:
NLTK 的全称是 __________。
jieba 的 cut 方法中,参数 cut_all 设为 __________ 时表示使用全模式。
在 NLTK 中实现词性标注前,需要下载 __________ 模块。
词形还原后的基本形式被称为 __________(Root Word),它必须存在于词典中。
NLTK 提供的 __________ 词干提取器是一个迭代提取器,具有超过 120 条规则。
基于向量空间模型的文本相似度计算中,余弦相似度的值越大,表示两篇文本越 __________。
文本预处理的基本流程通常包括:原始文本 $\rightarrow$ 分词 $\rightarrow$ __________ $\rightarrow$ 删除停用词。
NLTK 库中用于计算频率分布、平滑概率分布的模块是 __________。
概念辨析 :请简述“词干提取 (Stemming)”与“词形还原 (Lemmatization)”的区别。
流程推导 :基于材料,请归纳出计算两篇文章相似度的具体实现思路。
算法理解 :基于情感词典的情感分析方法,其优缺点分别是什么?
数学应用 :已知文本 $A$ 和文本 $B$ 提取的关键词集合并集为 $\{w_1, w_2, w_3\}$。文 本 $A$ 的词频向量为 $\vec{a} = [1, 2, 0]$,文本 $B$ 的词频向量为 $\vec{b} = [0, 1, 1]$。 请写出余弦相似度的公式,并计算文本 $A$ 与 $B$ 的相似度。
英文预处理管线实现 : 要求补全代码,实现对一段英文文本的预处理,包括:分词、词性标注、提取动词原形(词形还 原)、过滤停用词。 jieba 分词模式对比 : 编写一段代码,对中文句子“中华人民共和国成立了”分别使用精确模式和全模式进行分词,并输 出结果。