聚类方法有哪些?


聚类方法有很多,如下所示:

划分方法 - 给定一个包含 n 个对象或数据元组的数据库,划分方法将信息分成 k 个分区,其中每个分区定义一个簇,并且 k < n。它可以将数据分配到 k 个组中,这些组可以满足以下必要条件:

  • 每个组必须至少包含一个对象。

  • 每个对象都应该准确地属于一个组。

给定 k(要构造的分区的数量),划分方法会进行初始划分。然后它使用迭代重定位方法,尝试通过将对象从一个组转换到另一个组来改进划分。

良好划分的总体标准是,同一簇中的对象彼此“接近”或相关,而不同簇的对象彼此“远离”或非常不同。有几种其他类型的标准用于确定分区的质量。

层次方法 - 层次方法生成给定数据集对象的层次分解。层次方法可以归类为凝聚的或分裂的,具体取决于层次分解是如何产生的。凝聚方法也称为“自下而上”方法。

它可以从每个对象形成一个独立的组开始。它依次将彼此接近的对象或组合并,直到所有组都合并成一个(层次结构的最高层),或者直到满足终止条件为止。分裂方法也称为“自上而下”方法。它可以从所有对象都在同一个簇中开始。在每次后续迭代中,一个簇被分成更小的簇,直到最终每个对象都在一个簇中,或者直到满足终止条件为止。

基于密度的聚类方法 - 一些划分方法根据对象之间的距离对对象进行聚类。此类方法只能发现球形簇,并且在查找任意形状的簇时会遇到困难。其他聚类方法是基于密度概念创建的。

DBSCAN 是一种典型的基于密度的聚类方法,它根据密度阈值增加聚类。OPTICS 是一种基于密度的聚类方法,它评估用于自动和交互式聚类分析的增强聚类排序。

基于网格的方法 - 基于网格的方法将对象空间量化为有限数量的单元格,这些单元格形成网格结构。一些聚类操作是在网格结构(即量化空间)上实现的。

这种方法的优点是其快速处理时间,通常独立于数据对象的数量,并且仅取决于量化空间中每个维度中单元格的数量。STING 是基于网格方法的一个实例。CLIQUE 和 Wave-Cluster 是两种既基于网格又基于密度的聚类算法。

基于模型的方法 - 基于模型的方法为每个簇假设一个模型,并发现记录对给定模型的最佳拟合。基于模型的算法可以通过创建反映数据点空间分布的密度函数来定位簇。它还导致了一种根据标准统计自动确定簇数量的方法,同时考虑“噪声”或异常值,从而产生稳健的聚类方法。

更新于:2021年11月24日

2K+ 次浏览

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告