什么是层次方法?


层次聚类技术通过将数据对象组合成集群树来工作。层次聚类算法可以是自顶向下或自底向上的。真实的层次聚类方法的质量由于其无法在合并或拆分决策完成后执行调整而降低。

集群的合并基于集群之间的距离。广泛使用的集群间距离度量如下,其中 mi 是集群 Ci 的均值,ni 是 Ci 中点的数量,|p – p’| 是两点 p 和 p’ 之间的距离。

层次聚类方法的类型

层次聚类方法有两种类型,如下所示:

凝聚层次聚类 (AHC) - AHC 是一种自底向上的聚类方法,其中集群具有子集群,子集群又具有子集群,依此类推。它从将每个对象放在其自己的集群开始,然后将这些原子集群组合成越来越大的集群,直到所有对象都在一个集群中,或者直到满足特定的终止条件。大多数层次聚类方法都应用于此类型。它们仅在其集群间相似性的定义上有所不同。

例如,一种称为 AGNES(凝聚嵌套)的方法使用单链接技术,其工作原理如下。假设有一组位于矩形中的对象。最初,每个对象都被放在它自己的集群中。然后,根据某些原则逐步组合集群,包括合并集群中最近对象之间欧几里德距离最小的集群。

分裂层次聚类 (DHC) - DHC 是一种自顶向下的方法,使用较少。它的工作方式与凝聚聚类相似,但方向相反。此方法从包含所有对象的单个集群开始,然后连续拆分生成的集群,直到只剩下单个对象的集群,或者直到满足特定的终止条件,包括获得所需的集群数量或两个最近集群之间的距离高于特定的阈值距离。

分裂方法通常不容易获得,而且很少使用,因为很难做出在高层次上进行分割的正确决策。DIANA(分部分析)是分裂层次聚类方法的一个例子。它的工作顺序相反。最初,所有对象都位于一个集群中。因此,集群根据某些原则进行划分,包括根据集群中最近邻对象之间最大的欧几里德距离来划分集群。

更新于:2021年11月24日

5K+ 次查看

启动你的职业生涯

完成课程获得认证

开始
广告