如何进行自动文档分类?
自动文档分类是一项重要的文本挖掘服务,因为存在大量在线文件,能够自动将这些记录组织成类别以支持文档检索和后续分析是无限的,但又非常重要的。
文档分类已用于自动主题标记(即为文档分配标签)、主题目录构建以及识别文档写作风格和定义与一组文档相关的超链接的目标。
一般过程如下:首先,将一组预分类文件作为训练集。分析训练集以更改分类方案。这种分类方案需要通过测试阶段进行改进。由此产生的分类方案可用于对多个在线文件进行分类。
此阶段与关系记录的分类相同。关系数据结构良好,例如每个元组都由一组属性-值对描述。
例如,在元组 {晴朗,温暖,干燥,无风,打网球} 中,“晴朗”相当于属性天气展望,“温暖”相当于属性温度等。
分类分析确定哪组属性-值对在决定一个人是否去打网球方面具有最高的区分能力。换句话说,文档数据库没有按照属性-值对进行结构化。
它是一组与一组文档关联的关键字,未组织成一组固定的属性或维度。如果我们将文档中每个不同的关键字、术语或特征视为一个维度,则一组文档中可能存在数千个维度。因此,通常使用的面向关系数据的分类方法,包括决策树分析,对于文档数据库的分类效率不高。
根据向量空间模型,如果两个文件共享相同的向量,则这两个文件相同。该模型促使构建了 k 近邻分类器,其基于类似文档预计会被分配相同类别标签的直觉。
它可以简单地索引所有训练文档,每个文档都与其对应的类别标签关联。当提交测试文档时,我们可以将其视为对 IR 系统的查询,并从训练集中检索与查询最相似的 k 个文档,其中 k 是一个可调常数。
测试文件的类别标签可以根据其 k 个最近邻的类别标签分布来决定。这种类别标签分布也可以进行改进,例如基于加权计数而不是原始计数,或留出一部分带标签的文档进行验证。
广告