机器学习 - 基于密度的聚类



基于密度的聚类是基于这样一个想法:聚类是高密度区域,由低密度区域隔开。

  • 该算法首先识别“核心”数据点,这些数据点是在指定距离内具有最小邻居数的数据点。这些核心数据点形成了一个聚类的中心。

  • 接下来,该算法识别“边界”数据点,这些数据点不是核心数据点,但至少有一个核心数据点作为邻居。

  • 最后,该算法识别“噪声”数据点,这些数据点既不是核心数据点也不是边界数据点。

流行的基于密度的聚类算法

以下是最常见的基于密度的聚类算法:

DBSCAN 聚类

DBSCAN(具有噪声的应用的空间聚类密度基础)算法是最常见的基于密度的聚类算法之一。DBSCAN 算法需要两个参数:最小邻居数 (minPts) 和核心数据点之间的最大距离 (eps)。

OPTICS 聚类

OPTICS(排序点以识别聚类结构)是一种基于密度的聚类算法,它通过构建数据集的可达性图来运行。可达性图是有向图,它将每个数据点与其在指定距离阈值内的最近邻居连接起来。可达性图中的边根据连接的数据点之间的距离加权。然后,该算法通过根据指定的密度阈值递归地将可达性图拆分为聚类来构建层次聚类结构。

HDBSCAN 聚类

HDBSCAN(具有噪声的应用的空间聚类密度基础的层次)是一种基于密度聚类的聚类算法。它是一种较新的算法,建立在流行的 DBSCAN 算法之上,并提供了几个优点,例如更好地处理不同密度的聚类以及检测不同形状和大小的聚类的能力。

在接下来的三章中,我们将详细讨论所有三种基于密度的聚类算法,以及它们在 Python 中的实现。

广告