数据挖掘中K均值算法的附加问题是什么?


K均值算法存在以下几个问题:

处理空簇 - 前面给出的基本K均值算法的第一个问题是,如果在分配阶段没有点分配给某个簇,则可能会出现空簇。如果发生这种情况,则需要一种方法来选择替代质心,因为平方误差将大于必要值。

一种方法是选择距离最近质心最远的点。如果这去除了当前贡献某些总平方误差的点。另一种方法是从具有最大SSE的簇中选择替代质心。这通常会划分簇并降低聚类的完整SSE。如果有多个空簇,则可以重复此过程多次。

离群值 - 当使用平方误差方法时,离群值会过度倾向于发现的簇。具体来说,当存在离群值时,生成的簇质心(原型)可能无法像它们那样具有代表性,因此SSE也会更高。

最好先找到离群值并将其移除。必须认识到,存在某些不需要移除离群值的聚类应用。当聚类用于数据压缩时,应聚类每个点,并且在某些情况下,包括财务分析,可能的离群值,例如异常盈利的用户,可能是感兴趣的点。

通过后处理减少SSE - 减少SSE的方法是查找更多簇,即需要更大的K。在这种情况下,很可能会改进SSE,但不一定需要增加簇的数量。这是可能的,因为K均值通常会收敛到局部最小值。

各种方法用于“修复”生成的簇,以创建具有较低SSE的聚类。该方法的目标是单个簇,因为完整的SSE很容易是每个簇贡献的SSE的总和。它可以通过对簇执行多个操作(包括拆分或合并簇)来更改总SSE。

一种方法是使用替代的簇拆分和合并过程。在拆分过程中,簇被划分,而在合并过程中,簇被组合。在这种方法中,可以撤销局部SSE最小值并创建具有所需簇数量的聚类解决方案。以下是拆分和合并阶段中使用的一些方法:

更新于:2022年2月14日

8K+ 次浏览

启动您的职业生涯

通过完成课程获得认证

开始学习
广告
© . All rights reserved.