机器学习 - 聚类算法



聚类方法是最有用的无监督机器学习方法之一。这些方法用于查找数据样本之间的相似性和关系模式,然后根据特征将这些样本聚类到具有相似性的组中。聚类很重要,因为它确定了当前未标记数据中的内在分组。它们基本上对数据点做出一些假设来构成它们的相似性。每个假设都会构建不同的但同样有效的聚类。

例如,下图显示了聚类系统将相似类型的数据分组到不同聚类中:

clustering system grouped

聚类形成方法

聚类不必以球形形式形成。以下是其他一些聚类形成方法:

  • 基于密度的 - 在这些方法中,聚类形成密集区域。这些方法的优点是它们具有良好的准确性和良好的合并两个聚类的能力。例如,基于密度的噪声应用空间聚类 (DBSCAN)、排序点以识别聚类结构 (OPTICS) 等。

  • 基于层次的 - 在这些方法中,聚类形成基于层次的树状结构。它们有两个类别,即凝聚的(自下而上的方法)和分裂的(自上而下的方法)。例如,使用代表的聚类 (CURE)、基于层次的平衡迭代减少聚类 (BIRCH) 等。

  • 分区 - 在这些方法中,聚类通过将对象划分为 k 个聚类来形成。聚类数将等于分区数。例如,K均值、基于随机搜索的大型应用程序聚类 (CLARANS)。

  • 网格 - 在这些方法中,聚类形成网格状结构。这些方法的优点是所有在这些网格上完成的聚类操作都很快并且独立于数据对象的数量。例如,统计信息网格 (STING)、聚类查询 (CLIQUE)。

聚类不必以球形形式形成。以下是其他一些聚类形成方法:

基于密度的

在这些方法中,聚类形成密集区域。这些方法的优点是它们具有良好的准确性和良好的合并两个聚类的能力。例如,基于密度的噪声应用空间聚类 (DBSCAN)、排序点以识别聚类结构 (OPTICS) 等。

基于层次的

在这些方法中,聚类形成基于层次的树状结构。它们有两个类别,即凝聚的(自下而上的方法)和分裂的(自上而下的方法)。例如,使用代表的聚类 (CURE)、基于层次的平衡迭代减少聚类 (BIRCH) 等。

分区

在这些方法中,聚类通过将对象划分为 k 个聚类来形成。聚类数将等于分区数。例如,K均值、基于随机搜索的大型应用程序聚类 (CLARANS)。

网格

在这些方法中,聚类形成网格状结构。这些方法的优点是所有在这些网格上完成的聚类操作都很快并且独立于数据对象的数量。例如,统计信息网格 (STING)、聚类查询 (CLIQUE)。

ML 聚类算法的类型

以下是最重要的和有用的 ML 聚类算法:

K均值聚类

此聚类算法计算质心并迭代,直到找到最佳质心。它假设聚类数已知。它也称为平面聚类算法。算法从数据中识别出的聚类数由 K 均值中的“K”表示。

均值漂移算法

它是无监督学习中使用的另一种强大的聚类算法。与 K 均值聚类不同,它不做出任何假设,因此它是一种非参数算法。

层次聚类

它是另一种无监督学习算法,用于将具有相似特征的未标记数据点组合在一起。

我们将在接下来的章节中详细讨论所有这些算法。

聚类的应用

我们可以在以下领域发现聚类很有用:

数据汇总和压缩 - 聚类广泛用于需要数据汇总、压缩和减少的领域。例如,图像处理和矢量量化。

协作系统和客户细分 - 由于聚类可用于查找类似的产品或相同类型的用户,因此可用于协作系统和客户细分领域。

作为其他数据挖掘任务的关键中间步骤 - 聚类分析可以为分类、测试、假设生成生成数据的紧凑摘要;因此,它也作为其他数据挖掘任务的关键中间步骤。

动态数据中的趋势检测 - 通过对类似趋势进行各种聚类,聚类也可用于动态数据中的趋势检测。

社交网络分析 - 聚类可用于社交网络分析。例如,在图像、视频或音频中生成序列。

生物数据分析 - 聚类也可用于对图像、视频进行聚类,因此可成功用于生物数据分析。

现在您已经了解了什么是聚类以及它是如何工作的,让我们在接下来的几章中了解机器学习中使用的一些聚类算法。

广告