二分 K 均值算法是对基本 K 均值算法的一个简单的改进,它依赖于一个简单的概念,例如为了获得 K 个聚类,将一些点的集合分成两个聚类,选择其中一个聚类进行分割,等等,直到产生 K 个聚类。k 均值算法产生输入参数 k,并将一组 n 个对象分成 k 个聚类,以便生成的聚类内相似性很高,而聚类间相似性很低。聚类相似性是根据聚类中对象的平均值来评估的,这可以被视为聚类的……阅读更多
K 均值算法有各种问题,如下所示:处理空聚类 - 之前给出的基本 K 均值算法的第一个问题是,如果在分配阶段没有点分配给聚类,则可能会获得空聚类。如果发生这种情况,则需要一种方法来选择替代质心,因为平方误差将大于必要值。一种方法是选择距离某个最近质心最远的点。如果这去除了当前贡献某些总平方误差的点。另一种方法是选择替代……阅读更多
K 均值聚类是最常见的划分算法。K 均值将数据集中的每个数据重新分配到新形成的单个聚类中。使用距离或相似性度量将记录或数据点分配给最近的聚类。k 均值算法创建输入参数 k,并将一组 n 个对象分成 k 个聚类,以便生成的聚类内相似性很大,而聚类间相似性很低。聚类相似性是根据聚类中对象的平均值来计算的,这可以被视为聚类的质心或重心。有……阅读更多