什么是 PROCLUS？

数据挖掘数据库数据结构

PROCLUS 代表 Projected Clustering（投影聚类）。它是一种常用的降维子空间聚类技术。也就是说，它不是从单个维度空间开始，而是首先在高维属性空间中找到聚类的原始近似值。

每个维度都会为每个聚类创建一个权重，并且在下一轮迭代中使用更新后的权重来重新创建聚类。这导致了在某些方便维度的所有子空间中探索密集区域，并防止在较低维度的投影维度中生成大量重叠的聚类。

PROCLUS 通过类似于 CLARANS 中使用的爬山阶段来发现最佳类中心组，但它被推广以处理投影聚类。它采用了一种称为曼哈顿分段距离的距离度量，它是对一组适当维度的曼哈顿距离。

PROCLUS 算法包括三个过程：初始化、迭代和聚类细化。在初始化过程中，它需要一个贪婪算法来选择一组彼此距离较远的原始类中心，以便确保每个聚类都由选定集中至少一个对象定义。

它可以选择与需要生成的多个聚类成比例的数据点随机样本，然后使用贪婪算法获得更小的最终子集用于后续过程。

迭代过程从这个缩小的（类中心）集中随机选择一组 k 个类中心，如果聚类得到改进，则用随机选择的新的类中心替换“不良”类中心。

对于每个类中心，都会选择一组维度，其平均距离与数学期望相比较小。与类中心相关的维度总数应为 k×l，其中 l 是一个输入参数，用于选择聚类子区域的平均维数。

细化过程根据发现的聚类计算每个类中心的新的维度，将点重新分配到类中心，并删除异常值。PROCLUS 表明该方法在发现高维聚类方面是有效且可扩展的。

与输出许多重叠聚类的 CLIQUE 不同，PROCLUS 查找点的非重叠分区。发现的聚类可以更好地理解高维数据，并支持其他后续分析。

CLIQUE 必须发现最大维度的子空间，以便高密度聚类在这些子空间中继续存在。它对输入对象的顺序没有反应，也不假设某些规范的数据分布。它随着输入大小线性扩展，并且随着数据中维度的增加具有最佳可扩展性。

Ginni

更新于：2022年2月17日

4K+ 浏览量

开启你的职业生涯

通过完成课程获得认证

广告

© . All rights reserved.