什么是 PROCLUS?
PROCLUS 代表 Projected Clustering(投影聚类)。它是一种常用的降维子空间聚类技术。也就是说,它不是从单个维度空间开始,而是首先在高维属性空间中找到聚类的原始近似值。
每个维度都会为每个聚类创建一个权重,并且在下一轮迭代中使用更新后的权重来重新创建聚类。这导致了在某些方便维度的所有子空间中探索密集区域,并防止在较低维度的投影维度中生成大量重叠的聚类。
PROCLUS 通过类似于 CLARANS 中使用的爬山阶段来发现最佳类中心组,但它被推广以处理投影聚类。它采用了一种称为曼哈顿分段距离的距离度量,它是对一组适当维度的曼哈顿距离。
PROCLUS 算法包括三个过程:初始化、迭代和聚类细化。在初始化过程中,它需要一个贪婪算法来选择一组彼此距离较远的原始类中心,以便确保每个聚类都由选定集中至少一个对象定义。
它可以选择与需要生成的多个聚类成比例的数据点随机样本,然后使用贪婪算法获得更小的最终子集用于后续过程。
迭代过程从这个缩小的(类中心)集中随机选择一组 k 个类中心,如果聚类得到改进,则用随机选择的新的类中心替换“不良”类中心。
对于每个类中心,都会选择一组维度,其平均距离与数学期望相比较小。与类中心相关的维度总数应为 k×l,其中 l 是一个输入参数,用于选择聚类子区域的平均维数。
细化过程根据发现的聚类计算每个类中心的新的维度,将点重新分配到类中心,并删除异常值。PROCLUS 表明该方法在发现高维聚类方面是有效且可扩展的。
与输出许多重叠聚类的 CLIQUE 不同,PROCLUS 查找点的非重叠分区。发现的聚类可以更好地理解高维数据,并支持其他后续分析。
CLIQUE 必须发现最大维度的子空间,以便高密度聚类在这些子空间中继续存在。它对输入对象的顺序没有反应,也不假设某些规范的数据分布。它随着输入大小线性扩展,并且随着数据中维度的增加具有最佳可扩展性。