数据挖掘中K均值算法的附加问题是什么？

数据挖掘数据库数据结构

K均值算法存在以下几个问题：

处理空簇 - 前面给出的基本K均值算法的第一个问题是，如果在分配阶段没有点分配给某个簇，则可能会出现空簇。如果发生这种情况，则需要一种方法来选择替代质心，因为平方误差将大于必要值。

一种方法是选择距离最近质心最远的点。如果这去除了当前贡献某些总平方误差的点。另一种方法是从具有最大SSE的簇中选择替代质心。这通常会划分簇并降低聚类的完整SSE。如果有多个空簇，则可以重复此过程多次。

离群值 - 当使用平方误差方法时，离群值会过度倾向于发现的簇。具体来说，当存在离群值时，生成的簇质心（原型）可能无法像它们那样具有代表性，因此SSE也会更高。

最好先找到离群值并将其移除。必须认识到，存在某些不需要移除离群值的聚类应用。当聚类用于数据压缩时，应聚类每个点，并且在某些情况下，包括财务分析，可能的离群值，例如异常盈利的用户，可能是感兴趣的点。

通过后处理减少SSE - 减少SSE的方法是查找更多簇，即需要更大的K。在这种情况下，很可能会改进SSE，但不一定需要增加簇的数量。这是可能的，因为K均值通常会收敛到局部最小值。

各种方法用于“修复”生成的簇，以创建具有较低SSE的聚类。该方法的目标是单个簇，因为完整的SSE很容易是每个簇贡献的SSE的总和。它可以通过对簇执行多个操作（包括拆分或合并簇）来更改总SSE。

一种方法是使用替代的簇拆分和合并过程。在拆分过程中，簇被划分，而在合并过程中，簇被组合。在这种方法中，可以撤销局部SSE最小值并创建具有所需簇数量的聚类解决方案。以下是拆分和合并阶段中使用的一些方法：

基尼系数 (Ginni)

更新于：2022年2月14日

8K+ 次浏览

启动您的职业生涯

通过完成课程获得认证

广告

© . All rights reserved.