空间数据挖掘的聚类方法有哪些?


聚类分析是统计学的一个分支,多年来一直被广泛研究。使用这种技术的好处是可以直接从数据中发现有趣的结构或聚类,而无需利用任何背景知识,例如概念层次结构。

在统计学中使用的聚类算法,如 PAM 或 CLARA,据报道在计算复杂度方面效率低下。出于效率方面的考虑,开发了一种称为 CLARANS(基于随机搜索的大型应用程序聚类)的新算法用于聚类分析。

**PAM(围绕类中心的划分)** - 假设有 n 个对象,PAM 通过首先为每个聚类找到一个代表性对象来找到 k 个聚类。这种代表性对象(即聚类中位于中心的点)称为类中心。

在选择 k 个类中心后,算法反复尝试创建最佳的类中心选择,分析所有可行的对象对,使得一个对象是类中心,另一个对象不是。为每个此类组合计算聚类质量的度量。

在一轮迭代中选择的好的点被选为下一轮迭代的类中心。单次迭代的成本为 O(k(n−k)2)。因此,对于 n 和 k 的较大值来说,在计算上效率非常低。

**CLARA(大型应用程序聚类)** - PAM 和 CLARA 算法之间的区别在于,后者是基于采样的。只有一小部分真实数据被选为数据的代表,并且使用 PAM 从该样本中选择类中心。

其思想是,如果样本以相当随机的方式选择,那么它会正确地代表整个数据集,因此,选择的代表性对象(类中心)将类似于从整个数据集中选择的。

CLARA 绘制多个样本,并输出这些样本中良好的聚类。CLARA 可以处理比 PAM 更高的数据集。现在每次迭代的复杂度变为 O(kS2+k(n−k)),其中 S 是样本的大小。

**CLARANS(基于随机搜索的大型应用程序聚类)** - CLARANS 算法结合了 PAM 和 CLARA,通过仅搜索数据集的子集来搜索,并且在任何给定时间它都不会将其自身限制在某个样本上。虽然 CLARA 在搜索的每个阶段都有一个恒定的样本,但 CLARANS 在搜索的每个阶段都以一定的随机性绘制样本。

聚类阶段可以表示为搜索一个图,其中每个节点都是一个可能的解决方案,即一组 k 个类中心。替换单个类中心后获得的聚类称为当前聚类的邻居。

更新于: 2022年2月16日

7K+ 次浏览

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告