基于图的聚类方法有哪些?


将一组物理或抽象对象组合成相同对象的类别,这个过程称为聚类。一个聚类是一组数据对象,这些对象在同一个聚类中彼此相似,并且与其他聚类中的对象不同。在许多应用中,可以将一组数据对象作为一个整体来考虑。聚类分析是一项重要的活动。

聚类有助于识别异常值。相同的值被组织成聚类,而那些落在聚类之外的值被称为异常值。聚类技术将数据元组视为对象。它们将对象划分成组或聚类,以便一个聚类中的对象彼此“相似”,而与其他聚类中的对象“不同”。通常根据基于距离函数的对象在空间中的“接近程度”来定义。

基于图的聚类有各种方法,如下所示:

稀疏化邻近图,只保留对象与其最近邻的连接。这种稀疏化有利于处理噪声和异常值。它还可以使用为稀疏图生成的极其有效的图划分算法。

它可以基于两个对象发送的多个最近邻来表示它们之间的相似性度量。这种方法基于这样的观察结果:一个对象及其最近邻通常属于同一类,对于克服高维性和密度变化的聚类问题非常有用。

它可以表示核心对象并在其周围建立聚类。在基于图的聚类中,重要的是要引入基于邻近图或稀疏化邻近图的密度概念。与 DBSCAN 一样,围绕核心对象建立聚类导致了一种可以发现不同形状和大小的聚类的聚类方法。

它可以使用邻近图中的数据来支持对是否应该合并两个聚类的更复杂的计算。特别是,只有当生成的聚类将具有与初始两个聚类相同的特性时,才会合并两个聚类。

它可以首先讨论邻近图的稀疏化,支持两种技术的实例,其聚类方法基于这种方法,例如与单连接聚类算法相同的 MST 和 Opossum。

一种层次聚类算法,它需要一个自相似性的概念来确定是否应该合并聚类。它可以定义共享最近邻 (SNN) 相似性(一种新的相似性度量),并学习 Jarvis-Patrick 聚类算法,该算法需要这种相似性。

更新于:2022年2月14日

1K+ 浏览量

开启你的职业生涯

完成课程获得认证

开始学习
广告