文本挖掘的过程是什么?
文本挖掘也称为文本分析。它是将非结构化文本转换为结构化数据以方便分析的过程。文本挖掘需要自然语言处理 (NLP),使设备能够学习人类语言并自动处理它。
它被定义为从标准语言文本中提取基本数据的过程。我们通过短信、文档、电子邮件、文件生成的一些数据是用普通语言文本编写的。文本挖掘通常用于从这些数据中提取有益的见解或模式。
文本挖掘是一种自动程序,它使用自然语言处理从非结构化文本中获取有价值的见解。它可以将数据转换为设备可以学习的信息,文本挖掘自动化了根据情感、主题和意图对文本进行分类的过程。
文本挖掘过程包含以下步骤来从文件中提取数据,如下所示 -
**文档收集** - 在第一步中,收集以多种格式存在的文本文档。文档可以是 pdf、word、html doc、css 等格式。
**文档预处理** - 在此过程中,对给定的输入文档进行处理以消除冗余、不一致、独立词、词干提取,并为下一步准备文件,实施的阶段如下 -
**分词** - 将给定文档视为字符串,并在文档中识别单个单词,即给定文档字符串被拆分为一个单元或标记。
**去除停用词** - 在此过程中,去除诸如 a、an、but、and、of、the 等常用词。
**词干提取** - 词干是一组具有相似含义的自然词。此方法定义特定词的词根。有两种方法:屈折词干提取和派生词干提取。词干提取的一种著名算法是 Porter 算法,例如,如果文档包含辞职、已辞职、辞职等词,则在使用词干提取方法后,它将被视为辞职。
**文本转换** - 文本文档是一组词(特征)及其出现次数。表示此类文档有两种方法:向量空间模型和词袋模型。
**特征选择(属性选择)** - 此方法通过从输入文档中剔除不相关的内容,从而减少数据库空间,简化搜索方法。
**数据挖掘/模式选择** - 在此过程中,传统的数据挖掘过程与文本挖掘过程相结合。结构化数据库促进了早期阶段产生的经典数据挖掘技术。
**评估** - 此阶段计算结果。此结果可以被忽略或用于以下一系列操作。