什么是ETL?
ETL代表提取、转换和加载。它是数据驱动型组织用于从多个来源收集数据,然后将其整合在一起以支持发现、报告、分析和决策的过程。
数据源在类型、格式、数量和可靠性方面可能存在差异,因此需要对数据进行处理,以便在组合交付时提供帮助。目标数据存储可以是数据库、数据仓库或数据湖,具体取决于目标和技术执行情况。ETL 的步骤如下:
提取 - 在提取过程中,ETL 识别数据并从其源复制数据,因此它可以将数据传输到目标数据存储。数据可以来自结构化和非结构化源,包括文件、电子邮件、业务软件、数据库、设备、传感器、第三方等。
执行提取的不同方法如下:
部分提取 - 如果源系统在记录被修改时通知我们,则访问信息的最简单方法是部分提取。
部分提取(带更新通知) - 并非所有系统都能在更新发生时提供通知;但是,它们可以标记已转换的记录并支持提取此类记录。
完整提取 - 某些系统根本无法识别哪些数据已更改。在这种情况下,完整提取是从系统中提取记录的唯一可行性。此方法需要以相同格式复制最终提取,以便识别已创建的更改。
转换 - 第二步包括将从源提取的原始信息转换为多种应用程序可以使用的格式。在此阶段,数据已清理、映射和转换,提供到特定的架构,因此它满足操作需求。
此过程需要多种类型的转换,以提供数据的质量和完整性。数据通常不会精确地加载到目标数据源中,而是通常将其上传到暂存数据库中。
此步骤可确保在某些计划未按预期进行时快速回滚。在此阶段,它可以创建审核文档以符合监管合规性,或诊断和修复某些数据问题。
加载 - ETL 将转换后的信息移动到目标数据存储中。此步骤可能需要原始加载所有源信息,或者可以增量加载源信息中的更改。它可以实时加载数据或按计划批处理加载数据。
广告