什么是数据立方体聚合?


数据集成是将来自多个不同来源的数据合并的过程。在执行数据集成时,必须处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种记录预处理方法,包括将来自多个异构数据源的数据合并成连贯的数据,以保留并提供数据的统一视角。

数据集成在医疗保健行业尤为重要。来自多个患者记录和诊所的集成数据通过将来自多个系统的信息集成到单个有益信息视角中,帮助临床医生识别医疗疾病和疾病,从而可以从中得出有用的见解。

有效的数据收集和集成还可以提高医疗保险索赔处理的准确性,并确保患者姓名和联系信息记录的一致性和准确性。互操作性是指在不同系统之间共享信息。

当我们拥有的数据形式与所需的不同时,可以将聚合方法应用于属性以获得所需的属性。例如,一家商店拥有其2010年至2012年季度销售数据。数据以季度形式提供,但需要检索其年度销售额。因此,需要聚合数据以找到所需的输出。

季度销售额季度销售额季度销售额年份销售额
2010年2011年2012年年度销售额
第一季度10000卢比第一季度8000卢比第一季度15000卢比2010130000卢比
第二季度50000卢比第二季度15000卢比第二季度20000卢比201153000卢比
第三季度40000卢比第三季度10000卢比第三季度40000卢比2012105000卢比
第四季度30000卢比第四季度20000卢比第四季度30000卢比

2010年到2012年的季度销售额被聚合到单个年度销售记录中。

每个属性可能存在概念层次结构,允许在多个抽象级别分析数据。例如,分支的层次结构可以根据其地址将分支分组到区域中。数据立方体支持快速访问预计算的汇总数据,从而有利于联机分析处理和数据挖掘。

在最低抽象级别生成的立方体定义为基本立方体。基本立方体应对应于单个感兴趣的实体,包括销售额或客户。换句话说,最低级别必须可用或有助于分析。最高抽象级别的立方体是顶点立方体。

为多个抽象级别生成的数据立方体定义为立方体,以便数据立方体可以定义立方体的格。每个较高的抽象级别都会进一步减少生成的数据大小。在回复数据挖掘请求时,应使用与给定任务相关的最小可用立方体。

更新于:2021年11月22日

5000+ 次浏览

启动你的职业生涯

完成课程获得认证

开始学习
广告