为什么小波变换对聚类有用?
WaveCluster 是一种多分辨率聚类算法,它首先通过在数据空间上强加多维网格架构来总结记录。它可以使用小波变换来改变原始特征空间,在变换后的空间中找到密集的域。
在这种方法中,每个网格单元总结映射到该单元的一组点的的。这些汇总数据通常适合主内存,以便多分辨率小波变换和随后的聚类分析使用。
小波变换是一种信号处理方法,它将信号分解成多个频率子带。小波模型可以通过将一维小波变换使用 d 次来用于 d 维信号。在应用小波变换时,数据会发生变化,以保留对象在几个分辨率级别上的相对距离。这使得数据中的自然聚类更容易被检测到。可以通过搜索新域中的密集区域来识别聚类。
小波变换的优点如下:
它提供无监督聚类:它需要帽形滤波器,这些滤波器强调点聚类的区域,同时抑制聚类边界外的较弱数据。
它提供无监督聚类 - 它需要帽形滤波器,这些滤波器强调点聚类的区域,同时抑制聚类边界外的较弱数据。
因此,初始特征空间中的密集区域充当相邻点的吸引子,并充当远离点的抑制器。这定义了数据中的聚类会自动脱颖而出并“清除”周围的区域。因此,另一个好处是小波变换可以自动导致异常值的消除。
小波变换的多分辨率特征可以支持在几个精度级别上检测聚类。
基于小波的聚类非常快,计算复杂度为 O(n),其中 n 是数据库中对象的数目。算法实现可以并行创建。
WaveCluster 是一种基于网格和基于密度的算法 - 它符合良好聚类算法的几个要求 - 它可以有效地管理大型数据集,查找任意形状的聚类,成功地管理异常值,对输入顺序不敏感,并且不需要输入参数的定义,包括聚类的数量或邻域半径。
在初步研究中,发现 WaveCluster 在效率和聚类质量方面都优于 BIRCH、CLARANS 和 DBSCAN。该研究还发现 WaveCluster 能够管理最多 20 维的数据。