什么是基于网格的方法?
基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化为有限数量的单元格,这些单元格形成网格结构,所有聚类操作都在此结构上实现。该方法的优点是处理速度快,通常与数据对象的数量无关,而仅取决于量化空间中每个维度上的多个单元格。
基于网格的方法的一个实例包括STING,它探索存储在网格单元格中的统计数据;WaveCluster,它使用小波变换方法对对象进行聚类;以及CLIQUE,它定义了一种用于高维数据空间中聚类的基于网格和密度的算法。
STING是一种基于网格的多分辨率聚类方法,其中空间区域被划分为矩形单元格。通常有几个这样的矩形单元格级别对应于多个分辨率级别,这些单元格形成一个层次结构,每个高层单元格都被细分为下一个较低级别的多个单元格。关于每个网格单元格中属性的统计数据(包括均值、最大值和最小值)是预先计算和存储的。
高层单元格的统计参数可以简单地从低层单元格的参数计算出来。这些参数包括:属性无关参数(计数),以及属性相关参数(均值、标准差 (stdev)、最小值 (min)、最大值 (max));以及单元格中属性值遵循的分布类型,包括正态分布、均匀分布、指数分布或无分布(如果分布是匿名的)。
当记录加载到数据库中时,底层单元格的计数、均值、标准差、最小值和最大值参数将直接从记录中计算。如果事先知道分布类型,则可以由用户分配分布值,或者通过假设检验(包括χ2检验)获得。
可以计算的高层单元格的分布类型取决于其对应的低层单元格的大多数分布类型,并结合阈值过滤过程。如果低层单元格的分布彼此不一致且未通过阈值测试,则高层单元格的分布类型将设置为无。
统计参数可以按如下方式用于自上而下的基于网格的方法。首先,确定层次结构中查询应答过程开始的层。该层通常包含少量单元格。对于当前层中的每个单元格,它可以计算置信区间(或概率估计范围),以反映单元格与给定查询的相关性。