ExamCrush

Python数据分析与应用

第8章 文本数据分析

本章共 23 题,可按题型筛选。

#1单选

在自然语言处理工具包的使用上,下列描述正确的是:

#2单选

jieba 分词的三种模式中,“全模式”的特点是:

#3单选

在使用 NLTK 进行英文分词时,如果调用 nltk.word_tokenize() 报错,通常是因为缺少哪个 模型?

#4单选

词性标注(POS Tagging)的主要任务是:

#5单选

关于词形归一化(Normalization),下列说法错误的是:

#6单选

在 NLTK 的通用词性标注集中,标签 VBG 通常代表:

#7单选

删除停用词的主要目的是:

#8单选

基于情感词典的情感极性分析中,若情感词前出现程度副词(如“非常”),计算逻辑通常 是:

#9单选

计算文本相似度时,将文本映射到向量空间后,最常用的衡量指标是:

#10单选

朴素贝叶斯算法在文本分类中的核心思想是:

#11填空

NLTK 的全称是 __________。

#12填空

jieba 的 cut 方法中,参数 cut_all 设为 __________ 时表示使用全模式。

#13填空

在 NLTK 中实现词性标注前,需要下载 __________ 模块。

#14填空

词形还原后的基本形式被称为 __________(Root Word),它必须存在于词典中。

#15填空

NLTK 提供的 __________ 词干提取器是一个迭代提取器,具有超过 120 条规则。

#16填空

基于向量空间模型的文本相似度计算中,余弦相似度的值越大,表示两篇文本越 __________。

#17填空

文本预处理的基本流程通常包括:原始文本 $\rightarrow$ 分词 $\rightarrow$ __________ $\rightarrow$ 删除停用词。

#18填空

NLTK 库中用于计算频率分布、平滑概率分布的模块是 __________。

#19简答

概念辨析 :请简述“词干提取 (Stemming)”与“词形还原 (Lemmatization)”的区别。

#20简答

流程推导 :基于材料,请归纳出计算两篇文章相似度的具体实现思路。

#21简答

算法理解 :基于情感词典的情感分析方法,其优缺点分别是什么?

#22简答

数学应用 :已知文本 $A$ 和文本 $B$ 提取的关键词集合并集为 $\{w_1, w_2, w_3\}$。文 本 $A$ 的词频向量为 $\vec{a} = [1, 2, 0]$,文本 $B$ 的词频向量为 $\vec{b} = [0, 1, 1]$。 请写出余弦相似度的公式,并计算文本 $A$ 与 $B$ 的相似度。

#23编程

英文预处理管线实现 : 要求补全代码,实现对一段英文文本的预处理,包括:分词、词性标注、提取动词原形(词形还 原)、过滤停用词。 jieba 分词模式对比 : 编写一段代码,对中文句子“中华人民共和国成立了”分别使用精确模式和全模式进行分词,并输 出结果。