- 数据架构教程
- 数据架构 - 首页
- 数据架构 - 简介
- 数据架构 - 大数据
- 数据架构 - 数据架构类型
- 数据架构 - 设计环节
- 数据架构 - 关系型数据仓库
- 数据架构 - 数据湖
- 数据架构 - 数据存储解决方案
- 数据架构 - 数据存储流程
- 数据架构 - 设计方法
- 数据架构 - 数据建模方法
- 数据架构 - 数据摄取方法
- 数据架构 - 现代数据仓库
- 数据架构 - 数据织物
- 数据架构 - 数据湖仓
- 数据架构 - 数据网格基础
- 有用资源
- 数据架构 - 有用资源
- 数据架构 - 讨论
数据架构 - 数据摄取方法
在这里,我们解释了在**数据架构**中,数据如何进入系统。它分解了公司如何从不同来源收集、处理和存储数据。无论您是数据管理新手还是希望扩展您的知识,本章将帮助您了解如何在不同情况下管理数据。
目录
什么是数据摄取?
**数据摄取**是指我们将数据引入系统以便存储和分析的过程。它包括**ETL(提取、转换、加载)**和**ELT(提取、加载、转换)**等方法,以及一种称为**反向ETL**的新方法。根据业务需求,数据可以一次性处理(批处理)或在数据到达时处理(实时处理)。良好的数据管理确保信息准确且易于访问。
为什么数据摄取很重要?
**数据摄取**对于帮助企业有效管理和利用其数据非常重要。它组织数据,使其易于访问,并为分析做好准备,从而有助于做出更好的决策和实现顺畅的运营。以下是一些重要性:
- **更佳决策:**它从不同来源收集数据,使企业能够全面了解情况,从而做出明智的选择。
- **节省时间:**它简化了数据收集过程,减少了人工操作并最大程度地减少了错误。
- **快速洞察:**它允许对传入数据进行快速分析,帮助企业快速应对变化。
- **与您一起成长:**随着企业的发展,它可以处理新的数据源和更多的数据量。
- **保持数据清洁和安全:**它确保数据在遵循规则的同时保持准确、一致和安全。
什么是ETL?
**ETL**代表**提取、转换、加载**。它是一个将数据从各种来源提取、修改和清理,然后存储到目标(例如数据仓库)中的过程。
**请记住:**ETL = “早期转换领先”:这意味着数据的转换发生在将其加载到最终目标之前。
ETL 的优势
现在,让我们看看 ETL 的好处。
- ETL 适用于较小的数据集和简单的更改。
- 由于数据在加载前已清理,因此它可以更好地控制数据质量。
- 它通过仅加载必要且已清理的数据来提高数据安全性。
- 对于关系型数据库,它通常更有效率。
ETL 的缺点
以下是 ETL 的一些缺点。
- 转换过程可能很慢且消耗大量资源,这可能会影响整体性能。
- 如果出现错误,则必须从源重新提取数据,从而导致额外的延迟。
- 传统的 ETL 工具可能难以处理大量数据。
- 某些 ETL 工具可能不支持许多不同类型的数据。
什么是ELT?
**ELT**代表**提取、加载、转换**。在此过程中,数据首先加载到目标系统而无需任何更改。加载后,数据将被转换。您还可以在提取过程中删除不必要的数据。
**请记住:**ELT = “每次加载都转换”意味着数据仅在加载到系统后才进行转换。
ELT 的优势
现在,让我们看看 ELT 的好处。
- 适用于数据湖和大量无组织的数据。
- 允许在数据加载后对其进行更改。
- 利用现代处理能力以获得更好的性能。
- 使用批处理更快地进行更改。
- 适用于多种类型的数据和工具。
ELT 的缺点
本节重点介绍使用 ELT 的挑战。
- 由于保留了原始数据,因此需要更多存储空间。
- 如果转换过程复杂,则速度可能会变慢。
- 如果原始数据管理不善,可能会导致数据质量问题。
- 需要强大的系统才能有效处理大量数据负载。
ETL 与 ELT
**提取-转换-加载 (ETL)** 是将数据移入关系型数据仓库的主要方法。最近,**提取-加载-转换 (ELT)** 变得越来越流行,尤其是在数据湖中。
**ETL** 和 **ELT** 都有其优势。**ETL** 对于维护数据质量和安全性很有用,尤其是在较小的数据集上。**ELT** 更加灵活,并且更适合处理数据湖中更大、非结构化的数据。
在 **ETL** 和 **ELT** 之间进行选择取决于您的特定数据需求。它不仅仅是二选一;目标是找到最适合您的数据处理方法。
反向ETL
**反向 ETL** 是指将数据从数据仓库移到其他系统,以便数据可以用于日常任务。传统上,数据仓库中的数据主要用于分析和规划。现在,许多公司也使用这些数据进行运营分析和日常运营。
**例如**,客户数据可以在数据仓库中进行清理,然后发送到 Salesforce 等系统。这确保了所有团队都可以访问相同的信息,从而更容易识别可能存在流失风险的客户。
在数据仓库中,公司创建关键指标以更好地了解其客户,例如
- **终身价值:**预期客户随时间推移带来的总利润。
- **产品合格潜在客户:**对产品表现出兴趣的潜在客户。
- **倾向得分:**客户购买的可能性。
这些指标有助于决策。通过使用**反向 ETL**,企业可以提供实时的个性化体验,从而提高客户满意度并改善整体成果。
批处理与实时处理
在**提取-转换-加载 (ETL)** 和**提取-加载-转换 (ELT)** 中,有两个主要选项用于何时以及多久提取一次数据:**批处理**和**实时处理**。以下是每个选项的详细介绍。
批处理
**批处理**是一种一次处理大量数据的方法。在这种方法中,源系统中的类似事务被分组在一起,或“**批处理**”,并定期(例如每天或每月)进行处理。然后,系统运行一项作业将整个批处理复制到目标(如数据湖或仓库)。这通常在非高峰时段进行,这意味着系统用户较少的时间,从而更容易管理而不会减慢速度。
**例如**,您的电费每月处理一次,电力公司会在月底收集您的用电数据并生成您的账单。
实时处理
**实时处理**意味着在数据到达时对其进行处理,以便您可以获得即时洞察。当有新信息可用时,它会启动一个过程,快速将数据发送到其需要去的地方。
**例如**,银行可以立即向客户发出可疑交易警报,以帮助防止欺诈。类似地,Waze 等交通应用程序使用实时数据更新交通状况并建议最佳路线。
**实时处理**会立即更新目标系统,确保报告和查询显示最新的信息。这有助于企业快速发现需要立即关注的问题。
虽然传统的数据仓库主要使用**批处理**,但实时处理现在变得越来越普遍,尤其是在能够处理每秒数百万事件的数据湖中。每种方法在数据仓库中都有其自身的优势和挑战。
批处理优缺点
**批处理**一次处理大量数据,使其效率更高,但访问数据的速度较慢。以下是一些优缺点。
批处理的优点
这些要点说明了为什么**批处理**是有效处理大量数据而不会过分影响系统的好选择。
- **效率:**一起处理许多项目,这比逐个处理它们更快。
- **计划任务:**在非高峰时段运行,以避免干扰正常工作。
- **风险较低:**如果出现问题,可以轻松重试。
批处理的缺点
这些要点突出了为什么当需要快速访问数据时**批处理**可能不是一个好选择,这会导致获取信息延迟。
- **数据可用性延迟:**由于数据按组处理,因此可能需要一段时间才能准备好。
- **资源利用不足:**如果管理不善,可能会浪费资源。
- **非实时:**不适合需要立即更新的应用程序。
实时处理优缺点
实时处理始终保持数据更新,以便快速获取洞察。它为您提供及时的信息,但需要更多资源。以下是优缺点。
实时处理的优点
这些好处说明了为什么**实时处理**对于需要快速可靠的信息来做出决策的企业至关重要。
- **即时洞察:**提供最新信息,以便快速决策。
- **持续更新:**非常适合需要持续更新数据的系统。
- **灵活性:**轻松适应不断变化的业务需求。
实时处理的缺点
这些缺点解释了为什么**实时处理**可能对企业来说具有挑战性,因为它需要更多资源并且可能导致更高的成本。
- **更高的资源需求:**持续使用更多系统资源。
- **故障风险增加:**系统故障的可能性更高,这可能使修复错误变得更加复杂。
- **数据一致性挑战:**在持续更新的情况下,保持数据一致性可能很困难。
- **成本更高:**由于持续运营,成本更高。
在批处理和实时处理之间进行选择
在选择**批处理**和**实时处理**时,请考虑您的数据类型、处理需求以及可以承受多少延迟。**批处理**适用于可以等待一段时间并且数据处理并非需要即时性的系统,而**实时处理**最适合需要立即访问数据的情况。
数据治理
**数据治理**是指管理组织中的数据。它设定了关于如何收集、存储、保护、转换和报告数据的规则。它确保公司遵守法律并检查数据是否准确且质量良好。这意味着要确保数据得到正确清理和更改。
一个良好的治理框架定义了谁负责管理和使用数据。一种方法是创建**数据治理卓越中心 (CoE)**。此**CoE**有助于制定策略和标准,并阐明数据活动的角色和决策过程。
在开始数据仓库项目之前,务必花时间创建**数据治理框架**并构建您的 CoE。许多项目失败是因为它们没有足够重视数据治理。