什么是凝聚聚类算法?


凝聚聚类是一种自下而上的聚类方法,其中簇包含子簇,子簇又包含子簇,等等。它可以从将每个对象放在自己的簇开始,然后将这些原子簇混合成越来越大的簇,直到所有对象都在一个单独的簇中,或者直到满足特定的终止条件。一些层次聚类方法使用这种类型。它们的区别仅在于它们对簇间相似性的描述。

例如,一种称为 AGNES(凝聚嵌套)的方法,使用单链接技术,其操作如下。假设有一组对象放在一个矩形中。最初,每个对象都位于它自己的簇中。然后,根据某些原则逐步合并这些簇,例如合并簇间最近对象之间欧几里得距离最小的簇。

K-均值聚类方法从固定数量的簇开始,并将所有数据分配到这多个簇中。另一类方法通过凝聚来操作。这些方法从每个数据点形成自己的簇开始,并逐渐将它们合并成越来越大的簇,直到所有点都被收集到一个大的簇中。

第一步是生成一个相似性矩阵。相似性矩阵是一个表,包含簇之间成对距离或相似度。最初,相似性矩阵包含单个记录对之间的成对距离。

记录之间有几种相似性度量,例如欧几里得距离、向量之间的角度以及连接到非连接分类字段的比率。

可以看出,对于 N 个数据点的 N 个原始簇,需要进行 N² 次测量计算才能生成距离表。如果相似性度量是真正的距离度量,则只需要一半的计算量,因为某些真正的距离度量遵循距离(X, Y) = 距离(Y, X) 的方法。

在数学中,相同的矩阵是下三角矩阵。下一步是在相同矩阵中找到最小值。这识别出彼此最相似的两个簇。可以将这两个簇合并成一个新的簇,并通过用定义合并簇与剩余簇之间距离的新行替换描述父簇的两行来刷新相似性矩阵。

现在有 N – 1 个簇和 N – 1 行在同一矩阵中。可以迭代合并步骤 N – 1 次,这样一些数据属于相同的大簇。每次迭代都会识别出哪些簇被合并以及它们之间的距离。此信息可以确定要使用哪种聚类方法。

更新于:2022年2月15日

浏览量 1K+

开启你的职业生涯

完成课程获得认证

开始学习
广告
© . All rights reserved.