数据仓库的过程是什么?


数据分段是一个主要的过程,包括以下子过程:

提取 - 提取步骤是将信息引入数据仓库环境的第一阶段。提取定义了读取和学习源数据,并将所需元素复制到数据分段区域以进行更多处理。

转换 - 由于数据被提取到数据分段区域,因此存在多个可能的转换过程,如下所示:

  • 它可以通过纠正拼写错误、解决域冲突(包括与邮政编码不一致的城市名称)、处理缺失的数据组件以及确定标准格式来清理数据。

  • 它可以用于清除旧记录中对数据仓库没有用的选定字段。

  • 它可以通过在关键值上精确对应或在非关键属性上实施模糊匹配来连接数据源,例如查找旧系统代码的文本同义词。

  • 它可以为每个维度数据创建代理键,以避免依赖于旧系统定义的键,其中代理键生成过程在维度表和事实表之间实现引用完整性。

  • 它可以用于构建聚合以促进常见查询的执行。

加载和索引 - 在转换阶段结束时,数据处于加载数据映像的设计中。数据仓库环境中的加载通常采用反映维度表和事实表以及将这些表特征化到每个接收数据仓库的大小加载工具的形式。

质量保证检查 - 当每个数据仓库加载并索引并提供合适的聚合后,在发布之前的最后一步是质量保证步骤。可以通过在整个新加载数据集中运行全面的异常文档来检查质量保证。

所有报告元素都应该存在,并且所有计数和总数都应该足够。所有报告的值都应该与预期它们的相同值的时序相关联。异常文档是用数据仓库的最终用户文档编写工具构建的。

发布/发布 - 当每个数据仓库当前已加载并保证质量后,应通知用户社区新记录已准备就绪。发布还连接了基本维度中出现的任何更改的性质以及已引入到已测量或计算的事实中的新假设。

查询 - 查询是一个广泛的术语,它涵盖了从数据仓库请求信息的所有活动,例如最终用户的临时查询、文档编写、复杂的决策支持应用程序、来自模型的请求和复杂的数据挖掘。

更新于: 2022年2月9日

223 次查看

开启你的 职业生涯

通过完成课程获得认证

开始
广告

© . All rights reserved.