聚类算法的特征是什么?


聚类算法有各种特征,如下所示:

顺序依赖性 - 对于某些算法,产生的特征和簇的数量可能会根据处理数据的顺序而变化,甚至可能发生剧烈变化。虽然阻止此类算法似乎是可取的,但有时顺序依赖性是关联性的次要的,或者算法可能具有一些理想的特征。

非确定性 - 包括 K 均值在内的聚类算法不依赖于顺序,但它们在每次运行时都会产生不同的结果,因为它们基于需要随机选择的初始化步骤。由于簇的特征可能在每次运行之间发生变化,因此可能需要进行多次运行。

可扩展性 - 数据集包含数千个对象的情况并不少见,用于此类数据集的聚类算法必须具有线性或接近线性的时间和空间复杂度。

即使复杂度为 O(m2) 的算法也不适用于大型数据集。此外,数据集的聚类技术不能假设所有数据都适合主内存或数据元素可以随机访问。此类算法对于大型数据集是不可行的。

参数选择 - 一些聚类算法具有一到多个参数,需要由用户指定。选择适当的值可能很复杂,因此,总体态度是“参数越少越好”。如果参数的微小变化会改变聚类结果,则选择参数值会变得更加复杂。

最后,除非支持用于确定参数值的流程(可能包含用户输入),否则算法的用户将不得不使用试错法来查找相关的参数值。

将聚类问题转换为另一个领域 - 一些聚类技术采取的一种方法是将聚类问题映射到另一个领域的某个问题。基于图的聚类将发现簇的任务映射到将邻近图划分为连接组件的任务。

将聚类视为优化问题 - 聚类被视为一个优化问题:以一种最大化所得簇集的质量(由用户定义的目标函数计算)的方式将点划分为簇。

例如,K 均值聚类算法试图找到最小化每个点与其最近的簇质心之间平方距离之和的簇集。此类问题可以通过枚举一些可能的簇集并选择目标函数值最好的簇集来解决,但这 种穷举方法在计算上是不可行的。

更新于: 2022 年 2 月 14 日

3K+ 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告