机器学习 - 基于质心的聚类



基于质心的聚类是一类机器学习算法,其目标是根据数据点到每个聚类质心的接近程度将数据集划分为组或聚类。

聚类的质心是该聚类中所有数据点的算术平均值,并作为该聚类的代表点。

两种最流行的基于质心的聚类算法是:

K均值聚类

K均值聚类是一种流行的用于数据聚类的无监督机器学习算法。它是一种简单高效的算法,可以根据数据的相似性将数据点分组到K个聚类中。该算法首先随机选择K个质心,它们是每个聚类的初始中心。然后,每个数据点都被分配到其质心与其最接近的聚类。然后通过取聚类中所有数据点的平均值来更新质心。重复此过程,直到质心不再移动或达到最大迭代次数。

K中心点聚类

K中心点聚类是一种基于划分的聚类算法,用于将一组数据点聚类到“k”个聚类中。与使用数据点的平均值来表示聚类中心的K均值聚类不同,K中心点聚类使用一个代表性数据点(称为中心点)来表示聚类中心。中心点是使它与聚类中所有其他数据点之间的距离之和最小化的数据点。这使得K中心点聚类比K均值聚类更能抵抗异常值和噪声。

我们将在接下来的两章中讨论这两种聚类方法。

广告