层次聚类中的元素是什么?


层次聚类方法通过将数据对象合并到一个聚类树中来操作。层次聚类算法可以是自上而下或自下而上的。准确的层次聚类技术的特征由于其缺乏执行调整而退化,因为合并或拆分决策已完成。

层次聚类有各种元素,如下所示:

缺乏全局目标函数

凝聚层次聚类方法使用多个元素在每个步骤中本地决定哪些聚类必须合并(或对于分裂方法进行拆分)。

此方法产生聚类算法,从而避免了进行解决复杂组合优化问题的难度的发生。

能够处理不同聚类大小

凝聚层次聚类的元素是如何考虑组合的聚类组的关联大小。它仅用于包含总和的聚类邻近方案,例如质心、Ward's 和组平均值。

有两种方法,例如加权方法,它平等地考虑所有聚类,以及未加权方法,它将每个聚类中的点数考虑在内。加权或未加权的术语定义数据点,而不是聚类。换句话说,平等地考虑大小不同的聚类会为不同聚类中的点提供多个权重,而将聚类大小考虑在内会为不同聚类中的点提供相似的权重。

合并决策是最终的

凝聚层次聚类算法影响到创建关于组合两个聚类的良好局部决策,因为它们可能需要关于所有点的成对相似性的数据。因为已经做出合并两个聚类的决定,所以下次无法撤消。此方法避免了局部优化元素成为全局优化标准。

例如,尽管 K 均值中的“最小化平方误差”标准用于确定在 Ward's 方法中要合并哪些聚类,但每个级别的聚类并不定义关于总 SSE 的局部最小值。实际上,聚类不是动态的,因为一个聚类中的点可能比它与其最近聚类的质心更靠近另一个聚类的质心。

一些尝试克服合并是最终限制的方法。一种方法尝试通过修改树周围的分支来提供层次聚类,以增强全局目标函数。另一种方法需要包括 Kmeans 的分区聚类技术来生成一些小的聚类,然后使用这些小聚类作为起点来实现层次聚类。

更新于: 2022年2月14日

199 次查看

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告