二分 K 均值算法是对基本 K 均值算法的一个简单改进,它基于一个简单的概念:为了获得 K 个集群,将一组点分成两个集群,选择其中一个集群进行分割,依次类推,直到产生 K 个集群。K 均值算法输入参数 k,并将 n 个对象的集合分成 k 个集群,以便生成的集群内相似度高,而集群间相似度低。集群相似度是根据集群中对象的平均值来评估的,这可以看作是集群的……阅读更多
K 均值算法有各种问题,如下所示:处理空集群 - 之前给出的基本 K 均值算法的第一个问题是,如果在分配阶段没有点分配给集群,则可能会获得空集群。如果发生这种情况,则需要一种方法来选择替换质心,因为平方误差将大于必要值。一种方法是选择距离某个最近质心最远的点。如果这去除了当前贡献一些总平方误差的点。另一种方法是选择替换……阅读更多
K 均值聚类是最常见的划分算法。K 均值将数据集中的每个数据重新分配到新形成的集群中的一个。使用距离或相似性度量将记录或数据点分配到最近的集群。K 均值算法创建输入参数 k,并将 n 个对象的集合分成 k 个集群,以便生成的集群内相似度高,而集群间相似度低。集群相似度是根据集群中对象的平均值来计算的,这可以看作是集群的质心或重心。有……阅读更多