这些统计信息如何用于查询回答?
统计参数可以用于自上而下、基于网格的方法,如下所示。首先,从层次结构体系中确定一个层作为查询回答过程的起点。
此层通常包含少量单元格。对于当前层中的每个单元格,它可以计算置信区间(或估计概率范围),以反映单元格与给定查询的相关性。
高层单元格的统计参数可以简单地从低层单元格的参数计算得出。这些参数包含以下内容:属性无关参数、计数以及属性相关参数、平均值、标准差、最小值、最大值;以及单元格中属性值遵循的分布类型,包括正态分布、均匀分布、指数分布或无(如果分布是匿名的)。
不相关的单元格将从进一步的考虑中移除。后续低层处理仅测试剩余的相关单元格。此阶段重复进行,直到获得底层。如果查询描述得到满足,则使用查询的相关单元格区域将被恢复。
STING 提供了一些优势,如下所示:
基于网格的计算与查询无关,因为存储在每个单元格中的统计数据定义了网格单元格中数据的摘要记录,与查询无关。
网格架构支持并行处理和增量刷新。
技术效率是一个主要优势。STING 遍历数据库,因为它可以计算单元格的数值参数,因此生成聚类的时间复杂度为 O(n),其中 n 是对象的总数。
在创建层次结构体系结构后,查询处理时间为 O(g),其中 g 是最低级别网格单元格的总数,通常小于 n。
由于 STING 需要一种多分辨率方法进行聚类分析,因此 STING 聚类的质量基于网格架构最低级别的粒度。如果粒度非常细,处理的价值将大大提高;但是,如果网格架构的底层过于粗糙,则会降低聚类分析的质量。
STING 在开发父单元格时没有处理子单元格及其相邻单元格之间的空间关系。因此,输出聚类的形状是等轴的;即,一些聚类边界是水平或垂直的,并且没有发现对角线边界。尽管该技术处理速度快,但这可能会降低聚类的质量和确定性。
广告