什么是数据提取?
提取是从源系统提取信息的服务,以便在数据仓库环境中提供更多帮助。它是ETL过程的第一个步骤。提取后,可以更改此数据并将其加载到数据仓库中。数据仓库的源系统通常是事务处理软件。例如,用于销售分析数据仓库的源系统可以是一个订单录入系统,该系统记录所有当前的订单活动。
数据提取是指考虑数据并将其移动以从数据源(例如数据库)中获取相关信息的特定设计。完成进一步的数据处理,其中包括插入元数据和其他数据集成;这是数据工作流中的另一个过程。
大部分数据提取来自非结构化数据源和多种数据结构。这些非结构化数据可以采用任何形式,包括表、索引和分析数据。
仓库中的数据可能来自多个来源,数据仓库需要三种不同的技术来使用传入的记录。这些过程称为提取、转换和加载 (ETL)。
数据提取过程包括从杂乱的数据源检索信息。数据提取加载到关系数据库的暂存操作中。因此,使用提取逻辑并使用软件编程接口向源系统请求数据。
数据提取工具的类型
有各种类型的数据提取工具,如下所示:
**批处理工具** - 传统的数据提取工具将这些数据批量构建,通常在非工作时间进行,以减少使用大量计算能力的影响。对于具有中等同质数据源的封闭的内部部署环境,批处理提取解决方案可能是最佳方法。
**开源工具** - 考虑到支持框架和知识都在该领域,开源工具可能是预算有限软件的最佳选择。各种供应商也提供其产品的有限或“轻量级”解释作为开源。
**基于云的工具** - 基于云的工具是新一代的提取产品。目标是将数据的实时提取作为ETL/ELT过程的一个组成部分,而基于云的工具在这方面表现出色,利用云提供的所有支持来支持数据存储和分析。这些工具还解决了安全性和合规性问题,因为今天的云供应商持续关注这些领域,从而无需在内部创建此类专业知识。
广告