什么是CLIQUE算法?
CLIQUE是第一个针对高维空间中维度增长子区域聚类的算法。在维度增长子区域聚类中,聚类过程从一维子空间开始,向上扩展到更高维子空间。
因为CLIQUE将每个维度划分为网格结构,并根据单元格包含的多个点来判断单元格是否密集。它可以看作是基于密度和基于网格的聚类方法的集成。
CLIQUE聚类算法的思想如下:
给定一大组多维数据点,数据空间通常不会被数据点均匀地占据。CLIQUE的聚类识别空间中稀疏和“拥挤”的区域(或单元),从而找到数据集的完整分布模式。
如果单元中包含的数据点比例超过输入模型参数,则该单元是密集的。在CLIQUE中,一个聚类表示为一组最大连接的密集单元。
CLIQUE通过两个过程实现多维聚类:第一个过程,CLIQUE将d维数据空间划分为不重叠的矩形单元,识别这些单元中的密集单元。这对于每个维度(在一维中)都完成了。
学生搜索空间的识别取决于关联规则挖掘中使用的Apriori性质。通常,该性质利用搜索区域中项目的先验知识,以便可以修剪部分区域。
CLIQUE的性质如下:如果一个k维单元是密集的,那么它在(k-1)维空间中的投影也是密集的。也就是说,给定一个k维学生密集单元,如果它可以检查其(k-1)维投影单元并发现一些非密集单元,那么它可以理解k维单元也不可能是密集的。
因此,它可以从(k-1)维空间中找到的密集单元中生成k维空间中的潜在或学生密集单元。通常,最终搜索的空间远小于原始空间。密集单元被检查以确定聚类。
在第二个过程中,CLIQUE对每个聚类进行最小描述,如下所示。对于每个聚类,它确定覆盖连接的密集单元聚类的最大区域。它为每个聚类确定一个最小覆盖(逻辑描述)。
CLIQUE必然会发现包含高密度聚类的最大维度子空间。它对输入对象的顺序不敏感,并且不假设任何规范的数据分布。它随输入大小线性扩展,并且随着数据中维度的增加,具有最佳的可扩展性。