机器学习 - 基于密度的聚类

基于密度的聚类是基于这样一个想法：聚类是高密度区域，由低密度区域隔开。

流行的基于密度的聚类算法

以下是最常见的基于密度的聚类算法：

DBSCAN（具有噪声的应用的空间聚类密度基础）算法是最常见的基于密度的聚类算法之一。DBSCAN 算法需要两个参数：最小邻居数 (minPts) 和核心数据点之间的最大距离 (eps)。

OPTICS（排序点以识别聚类结构）是一种基于密度的聚类算法，它通过构建数据集的可达性图来运行。可达性图是有向图，它将每个数据点与其在指定距离阈值内的最近邻居连接起来。可达性图中的边根据连接的数据点之间的距离加权。然后，该算法通过根据指定的密度阈值递归地将可达性图拆分为聚类来构建层次聚类结构。

HDBSCAN（具有噪声的应用的空间聚类密度基础的层次）是一种基于密度聚类的聚类算法。它是一种较新的算法，建立在流行的 DBSCAN 算法之上，并提供了几个优点，例如更好地处理不同密度的聚类以及检测不同形状和大小的聚类的能力。

在接下来的三章中，我们将详细讨论所有三种基于密度的聚类算法，以及它们在 Python 中的实现。

打印页面