什么是数据暂存区?
在数据仓库过程中,数据暂存区由数据暂存服务器软件和数据存储归档(存储库)组成,其中存储了提取、转换和加载活动的成果。
数据暂存软件服务器临时保存和更改从 OLTP 数据源提取的数据,而归档存储库则存储已清理、转换后的数据和属性,以便加载到数据市场和数据仓库中。
数据暂存过程将信息导入为流或文件,对其进行更改,生成集成、清理后的数据,并将其暂存以加载到数据仓库、数据市场或操作数据存储中。
数据暂存工具是可访问的,数据位于数据库中。数据流开始,使其从源系统出现,通过转换引擎更改,并进入暂存数据库。
在第二种方法中,它可以从大型机遗留系统开始,然后将所需记录提取到平面文件中,将文件更改为暂存服务器,转换其内容,并将转换后的信息加载到暂存数据库中。
数据仓库暂存区是一个临时区域,用于复制来自源系统的数据。在数据仓库体系结构中通常需要暂存区,原因是时间问题。简而言之,在将数据统一到数据仓库之前,应准备好所有必要的信息。
由于业务周期、数据处理周期、硬件和网络资源限制以及地理因素的不同,无法在完全相同的时间从所有操作数据库中提取所有信息。
示例 - 提取每日销售数据是合理的,但是,每日提取可能不适用于需要月度对账程序的财务信息。同样,从新加坡的数据库中在东部标准时间中午提取“客户”数据可能是合适的,但这可能不适用于芝加哥数据库中的“客户”数据。
数据仓库中的数据可以是持久性的(即保留很长时间)或瞬态的(即仅保留一段时间)。并非所有企业都需要数据仓库暂存区。对于许多企业来说,使用 ETL 将数据直接从操作数据库复制到数据仓库是合适的。
数据暂存的优缺点
优点
暂存过程与转换过程并行控制。
磁盘 I/O 减半,因为暂存表仅写入一次,然后再次提取。
缺点
如果转换过程失败,则暂存过程也将停止。
广告