数据转换的服务是什么?
在数据转换中,数据被转换或链接成适用于挖掘的形式。数据转换可以包含以下内容 -
平滑化 - 它可以用于去除数据中的噪声。此类技术包括分箱、回归和聚类。
聚合 - 在聚合中,对数据应用汇总或聚合操作。
泛化 - 在泛化中,通过概念层次结构的需要,将低级或“原始”(原始)数据恢复为更高级别的概念。
数据转换有各种服务,如下所示 -
集成 - 集成包括生成代理键、将一个方案中的键映射到另一个方案,以及将程序映射到完整描述中。此转换背后有一个隐式权限来支持主密钥查找表。
缓慢变化维度维护 - 识别更改的值并创建代理键是一个棘手的过程,但它不是空间扭曲数学。如果您购买数据暂存工具,它应该内置有管理缓慢变化维度的算法。
反规范化和重新规范化 - 将分层的分离表反规范化为维度是标准的仓库转换过程。一些数据暂存工具提供了一个星型模式功能,可以自动执行此功能。此外,一些反规范化发生在事实表阶段。
例如,财务架构可能有一个维度是金额类型,其值可以是实际、预算或预测。根据这些记录包含的详细程度,将此列透视到一行中,包含三个美元金额列,每个金额类型一个,可能很有意义。
清洗、去重、合并/清除 - 对于许多数据仓库来说,这是一个大问题,特别是那些关注外部实体(如客户、企业、医生和患者)的数据仓库。这是一个复杂的过程,但一些供应商专门为此问题提供工具和服务。
数据类型转换 - 这涉及将一种数据类型或格式转换为另一种的较低级别转换。这范围从将 IBM 的大型机字符集 EBCDIC 转换为 ASCII,到将日期、数字和字符表示形式从一个数据库转换为另一个数据库。
计算、派生、分配 - 这些是使用在需求阶段识别的业务规则进行的转换。确保您选择的工具提供了一套完整的可用函数,包括字符串操作、日期和时间算术、条件语句和基本数学。
聚合 - 可以根据在哪个阶段可以访问哪些资源,在加载过程的某些元素中管理聚合。如果可以在提取或转换过程中将聚合计算为一个元素,则可以使用像 Syncsort 这样的工具直接处理平面记录。这些实用程序是为排序和报告而开发的,并且非常擅长此工作。