数据立方体计算的技术有哪些?
以下是高效计算数据立方体的一些通用优化技术:
排序、哈希和分组 − 必须对维度属性使用排序、哈希和分组操作来重新排序和聚类关联的元组。在立方体计算中,聚合是在共享相似维度值集的元组上实现的。因此,分析排序、哈希和分组服务以访问和分组此类数据以支持此类聚合的评估至关重要。
它可以按分支、日期和项目计算总销售额。按分支排序元组或单元格,然后按日期排序,然后按项目名称分组,可能会更有效。在数据库研究领域,对大型数据集进行此类操作的有效性能已被广泛考虑。
这种性能可以延续到数据立方体计算。此方法还可以用于实现共享排序(即,当使用基于排序的技术时,在不同的cuboid之间共享排序成本),或实现共享分区(即,当使用基于哈希的算法时,在不同的cuboid之间共享分区成本)。
同时聚合和缓存中间结果 − 在立方体计算中,从先前计算的较低级别聚合而不是从基本事实表计算较高级别聚合更有效。此外,同时从缓存的中间计算结果进行聚合可以减少代价高昂的磁盘输入/输出 (I/O) 操作。
例如,它可以计算按分支的销售额,它可以使用从包括按分支和日期的销售额的较低级别cuboid计算更改的中间结果。此方法可以用于实现摊销扫描(即,同时计算尽可能多的cuboid以摊销磁盘读取)。
当存在多个子立方体时,从最小的子立方体进行聚合 − 当存在多个子立方体时,通常从最小、先前计算的子立方体计算所需的父(即更通用的)立方体更有效。
可以探索 Apriori 剪枝方法来高效计算冰山立方体 − 数据立方体环境下的 Apriori 属性定义如下:如果给定单元格不满足最小支持度,则该单元格的任何后代(即更具体的单元格)都不会满足最小支持度。此属性可用于大大减少冰山立方体的计算量。
冰山立方体的描述包括一个冰山条件,这是一个对要物化的单元格的约束。一个通用的冰山条件是单元格应满足包括最小计数或总和的最小支持度阈值。在此术语中,Apriori 属性可用于缩短对单元格后代的检查。