什么是STING?
STING代表统计信息网格 (Statistical Information Grid)。STING是一种基于网格的多分辨率聚类方法,其中空间区域被划分为矩形单元。这些矩形单元的几种方法等同于多种分辨率的方法,这些单元形成一个分层结构,每一高层单元都分离以形成下一较低层中的几个单元。
每个网格单元中属性的统计数据(包括平均值、最大值和最小值)都被预先计算并存储。高层单元的统计参数可以简单地从低层单元的参数计算出来。
这些参数包含以下内容:属性无关参数、计数以及属性相关参数、平均值、标准差 (stdev)、最小值 (min)、最大值 (max);以及单元中属性值遵循的分布类型,包括正态分布、均匀分布、指数分布或无分布(如果分布是匿名的)。
当记录加载到数据库中时,底层单元的计数、平均值、标准差、最小值和最大值参数直接从记录中计算。如果预先知道分布类型,则可以由用户分配分布值,或者通过假设检验(包括χ2检验)获得。
可以根据其等效低层单元的整体分布类型以及阈值过滤程序来评估高层单元的分布类型。如果低层单元的分布彼此不一致并且不通过阈值测试,则高层单元的分布类型设置为无。
基于网格的聚类方法使用多分辨率网格数据结构。它将对象空间量化为多个单元,这些单元形成一个网格结构,在该结构上实现一些用于聚类的操作。该方法的优点是其快速处理时间,这通常与数据对象的数量无关,而仅取决于量化空间中每个维度中的多个单元。
基于网格的方法的一个实例包括STING,它探索存储在网格单元中的统计数据;WaveCluster,它使用小波变换方法对对象进行聚类;以及CLIQUE,它定义了一种用于高维数据区域聚类的基于网格和密度的算法。
这种方法的优点是查询无关的方法,因为统计信息独立于查询而存在。它是每个网格单元中数据的常用描述,可用于支持回答大量查询。计算复杂度为O(K),其中K是最低级别网格单元的数量。通常K << N,其中N是对象的数量。