文本挖掘的过程是什么？

数据挖掘数据库数据结构

文本挖掘也称为文本分析。它是将非结构化文本转换为结构化数据以方便分析的过程。文本挖掘需要自然语言处理 (NLP)，使设备能够学习人类语言并自动处理它。

它被定义为从标准语言文本中提取基本数据的过程。我们通过短信、文档、电子邮件、文件生成的一些数据是用普通语言文本编写的。文本挖掘通常用于从这些数据中提取有益的见解或模式。

文本挖掘是一种自动程序，它使用自然语言处理从非结构化文本中获取有价值的见解。它可以将数据转换为设备可以学习的信息，文本挖掘自动化了根据情感、主题和意图对文本进行分类的过程。

文本挖掘过程包含以下步骤来从文件中提取数据，如下所示 -

**文档收集** - 在第一步中，收集以多种格式存在的文本文档。文档可以是 pdf、word、html doc、css 等格式。

**文档预处理** - 在此过程中，对给定的输入文档进行处理以消除冗余、不一致、独立词、词干提取，并为下一步准备文件，实施的阶段如下 -

**分词** - 将给定文档视为字符串，并在文档中识别单个单词，即给定文档字符串被拆分为一个单元或标记。
**去除停用词** - 在此过程中，去除诸如 a、an、but、and、of、the 等常用词。
**词干提取** - 词干是一组具有相似含义的自然词。此方法定义特定词的词根。有两种方法：屈折词干提取和派生词干提取。词干提取的一种著名算法是 Porter 算法，例如，如果文档包含辞职、已辞职、辞职等词，则在使用词干提取方法后，它将被视为辞职。

**文本转换** - 文本文档是一组词（特征）及其出现次数。表示此类文档有两种方法：向量空间模型和词袋模型。

**特征选择（属性选择）** - 此方法通过从输入文档中剔除不相关的内容，从而减少数据库空间，简化搜索方法。

**数据挖掘/模式选择** - 在此过程中，传统的数据挖掘过程与文本挖掘过程相结合。结构化数据库促进了早期阶段产生的经典数据挖掘技术。

**评估** - 此阶段计算结果。此结果可以被忽略或用于以下一系列操作。

Ginni

更新于： 2022年2月15日

4K+ 次查看

启动您的职业生涯

通过完成课程获得认证

广告

© . All rights reserved.