Python数据分析与应用

第8章文本数据分析

本章共 23 题，可按题型筛选。

返回课程从第一题开始

在自然语言处理工具包的使用上，下列描述正确的是：

jieba 分词的三种模式中，“全模式”的特点是：

在使用 NLTK 进行英文分词时，如果调用 nltk.word_tokenize() 报错，通常是因为缺少哪个模型？

词性标注（POS Tagging）的主要任务是：

关于词形归一化（Normalization），下列说法错误的是：

在 NLTK 的通用词性标注集中，标签 VBG 通常代表：

删除停用词的主要目的是：

基于情感词典的情感极性分析中，若情感词前出现程度副词（如“非常”），计算逻辑通常是：

计算文本相似度时，将文本映射到向量空间后，最常用的衡量指标是：

朴素贝叶斯算法在文本分类中的核心思想是：

NLTK 的全称是 __________。

jieba 的 cut 方法中，参数 cut_all 设为 __________ 时表示使用全模式。

在 NLTK 中实现词性标注前，需要下载 __________ 模块。

词形还原后的基本形式被称为 __________（Root Word），它必须存在于词典中。

NLTK 提供的 __________ 词干提取器是一个迭代提取器，具有超过 120 条规则。

基于向量空间模型的文本相似度计算中，余弦相似度的值越大，表示两篇文本越 __________。

文本预处理的基本流程通常包括：原始文本 $\rightarrow$ 分词 $\rightarrow$ __________ $\rightarrow$ 删除停用词。

NLTK 库中用于计算频率分布、平滑概率分布的模块是 __________。

概念辨析：请简述“词干提取 (Stemming)”与“词形还原 (Lemmatization)”的区别。

流程推导：基于材料，请归纳出计算两篇文章相似度的具体实现思路。

算法理解：基于情感词典的情感分析方法，其优缺点分别是什么？

数学应用：已知文本 $A$ 和文本 $B$ 提取的关键词集合并集为 $\{w_1, w_2, w_3\}$。文本 $A$ 的词频向量为 $\vec{a} = [1, 2, 0]$，文本 $B$ 的词频向量为 $\vec{b} = [0, 1, 1]$。请写出余弦相似度的公式，并计算文本 $A$ 与 $B$ 的相似度。

英文预处理管线实现：要求补全代码，实现对一段英文文本的预处理，包括：分词、词性标注、提取动词原形（词形还原）、过滤停用词。 jieba 分词模式对比：编写一段代码，对中文句子“中华人民共和国成立了”分别使用精确模式和全模式进行分词，并输出结果。