什么是文档聚类分析?


文档聚类是一种重要的无监督方式组织文件的方法。当文档表示为词向量时,就可以应用聚类方法。文档空间通常具有高维性,维度从几百到几千不等。

由于维数灾难,将文档投影到低维子空间中是很有意义的,在该子空间中,文档空间的语义结构变得清晰。在低维语义空间中,可以使用传统的聚类算法。

文档聚类分析有几种方法,如下所示:

谱聚类 - 谱聚类方法首先对原始数据进行谱嵌入(降维),然后在降维后的文档空间上应用传统的聚类算法(例如,k均值)。

谱聚类能够处理高度非线性数据(数据空间在每个局部区域都具有高曲率)。它与微分几何的强大联系使其能够找到文件空间的流形结构。

这些谱聚类算法的局限性在于它们使用非线性嵌入(降维),这只能在“训练”数据上表示。它们必须使用一些数据点来理解嵌入。当数据集很大时,理解这种嵌入在计算上代价很高。这限制了谱聚类在大型数据集上的应用。

混合模型 - 混合模型聚类方法使用混合模型对文本数据进行建模,通常涉及多项式分量模型。聚类涉及以下两个步骤:

基于文本数据和任何额外的先验知识估计模型参数。

基于估计的模型参数推断聚类。根据混合模型的定义,这些方法可以同时对单词和文档进行聚类。

概率潜在语义分析 (PLSA) 和潜在狄利克雷分配 (LDA) 是此类方法的两个例子。聚类方法的优点是这些聚类可以被设计为支持文件的比较分析。

潜在语义索引 (LSI) 和局部保持索引 (LPI) 方法是线性降维方法。它们用于在 LSI 和 LPI 中获得变换向量(嵌入函数)。这些嵌入函数在任何地方都有表示;因此,它可以使用数据元素来理解嵌入函数并将一些数据嵌入到低维空间。

LSI 的目标是找到原始文档空间在最小化全局重建误差意义上的最佳子空间逼近。换句话说,LSI 试图发现最具代表性的特征,而不是文档表示中最具区分性的特征。因此,LSI 在区分具有不同语义的文档方面可能不是最佳的,而这是聚类的最终目标。

更新于:2022年2月17日

2K+ 次浏览

开启你的职业生涯

完成课程获得认证

开始学习
广告