数据架构 - 数据网格基础



数据网格的概念由Nextdata的首席执行官Zhamak Dehghani提出。它不是一项具体的技术,而是一种新的数据工作方式。您可以使用不同的技术,例如数据仓库数据湖来构建数据网格。本章解释了什么是数据网格,它是如何工作的以及何时使用它。本章涵盖



什么是数据网格?

数据网格是一种通过让每个团队负责自己的数据来组织公司数据的途径。与其让一个中央团队控制所有数据,不如让每个团队(或领域)像管理产品一样处理自己的数据,以便其他人可以轻松使用。

它有四个主要思想。

  • 领域所有权:每个团队拥有并管理自己的数据。
  • 数据即产品:数据被视为产品,方便其他人查找和使用。
  • 自动化基础设施:系统自动处理管理数据所需的工具。
  • 治理:有一些规则确保数据安全、可靠并符合公司标准。

何时使用数据网格?

数据网格在以下情况下很有帮助

  • 数据处理速度缓慢或延迟
  • 数据质量在整个组织中不一致
  • 组织难以扩展其数据能力
  • 由于数据难以访问,企业错失商机

去中心化数据架构

传统的数据系统,如数据仓库数据湖,是中心化的,这意味着一个中央团队控制所有数据。

数据网格中,数据是去中心化的。每个团队管理自己的数据,决定如何使用它,并将其保存在自己的领域中。您可以直接访问数据所在的位置,而无需将其移动到中央系统。这使得数据更易于管理,并且随着公司发展而更好地扩展。

集中式系统中,中央团队处理所有事情,包括存储数据、确保质量和安全、管理数据管道和备份。这些系统通过向单个中央系统添加更多功能来增长,而数据网格则通过赋予每个团队对其自身数据的控制权来增长。

数据网格热潮

数据网格自2019年以来备受关注,但仍处于早期阶段,采用率有限(5%-20%)。Gartner预测,随着企业转向使用被动元数据,它将被数据织网取代。

虽然有些人认为数据网格解决了数据仓库中的扩展问题,但失败的真正原因通常是人员或流程问题,而不是技术本身。

即使有如此多的炒作,大型数据解决方案多年来一直运行良好。实际上很少有公司真正使用数据网格,大多数声称使用它的公司实际上使用的是其他系统,例如数据织网湖仓

Dehghani的数据网格四大原则

旨在改进组织内数据管理、可扩展性和协作的四个关键原则如下。

领域所有权

数据网格中,每个业务领域(例如销售、制造或营销)负责自己的数据。最了解数据的人员负责管理它,而不是中央团队。通过分散数据所有权,管理和扩展数据的过程变得更加高效和适应性强。

数据即产品

数据应被视为一种产品,需要持续开发、维护和改进。就像任何产品一样,它应该具有高质量、易于查找且用户友好。团队负责确保其数据可靠、有据可查、安全且可供其他人访问。

自助式数据基础设施

领域团队需要易于创建和管理数据产品的工具。与其从头构建复杂的系统,不如让中央平台提供用于存储、处理和共享数据的现成解决方案。这种方法使领域团队能够专注于其数据,而不必担心技术基础设施。

联邦计算治理

数据治理应该是中央团队和每个业务领域之间共同承担的责任。中央团队制定安全、数据质量和法律要求的主要规则,而每个业务领域则确保其自身数据遵循这些规则。这样,组织保持一致,但每个领域仍然可以满足其自身的特定需求。

数据网格中的数据域

数据网格中,每个创建或使用数据的业务领域都对其负责。最了解数据的人员负责管理它。数据域主要有三种类型。

  • 源对齐数据:这是来自原始系统的数据,已转换为可分析的数据。它不是为任何特定组定制的,而是跨多个业务领域使用。
  • 聚合数据:来自不同领域的数据组合,以简化报告或分析,例如合并销售和制造数据以生成利润报告。
  • 消费者对齐数据:修改后的数据,以满足特定部门或用例的需求,例如使非技术团队或机器学习模型更容易使用。

数据网格逻辑架构

数据网格中,数据分布在不同的业务领域或域中,每个域拥有自己的数据产品。以下是它的工作原理。

  • 源对齐域:这些域处理来自其运营的直接数据。例如,销售团队将客户数据存储在数据湖中,并将其与其他数据结合起来进行分析。
  • 消费者对齐域:这些域简化复杂数据,使非技术团队(如供应商)更容易理解和使用信息。
  • 聚合域:这些域组合来自不同来源的数据(例如销售和制造),以创建报告或执行分析。这提高了查询数据的速度和效率。
  • 客户360域:此域将来自不同来源的客户数据(例如人口统计、交易、反馈)组合到一个完整的视图中,并与所有相关团队共享。

数据网格拓扑

数据网格可以以三种方式组织,具体取决于集中或分散的程度:每种方式都有其自身的优缺点。

  • 网格类型1:所有域使用相同的技术和一个共享的数据湖。这使得管理安全和数据更容易,并避免了使用单独的数据湖带来的性能问题。
  • 网格类型2:域使用相同的技术,但拥有自己的单独数据湖。这提供了更大的自由度,但也可能使合并来自不同数据湖的数据变得更加困难。
  • 网格类型3:域可以使用不同的技术和云服务(如AWS、Azure或GCP)。这提供了更大的灵活性,但也带来了安全、数据管理和跨不同平台集成数据的挑战。

数据网格与数据织网

数据网格数据织网都是重要的概念,但它们服务于不同的目的,如下表所示。

方面 数据网格 数据织网
定义 一种通过将数据划分为业务的不同部分来管理数据的方式。 一个将数据连接并管理在一个地方的系统。
数据所有权 不同的团队或部门拥有并管理自己的数据。 一个中央团队(如IT)管理所有数据。
数据组织方式 数据按业务领域(如销售、营销等)划分。 所有数据都保存在一个地方并一起组织。
灵活性 每个团队可以使用他们喜欢的工具和技术。 每个人在整个系统中使用相同的工具和技术。
最适合 拥有许多部门且需要控制自身数据的公司。 希望所有数据都在一个中央系统中的公司。
可扩展性 随着更多部门加入,易于扩展。 当数据量很大时,可能难以扩展。
数据共享 数据通过API和其他方法在团队之间共享。 数据存储在一个地方,因此团队可以轻松访问它。
主要关注点 赋予不同团队对其自身数据的控制权。 简化在一个地方连接和管理所有数据。

数据网格和数据织网如何协同工作?

数据网格数据织网协同工作以帮助管理和连接整个组织的数据。以下是它们各自发挥的作用

  • 数据网格:按不同的业务领域分解数据,以便每个团队负责自己的数据。
  • 数据织网:提供连接所有数据的工具和系统,使每个人都易于访问。

何时使用数据网格与数据织网

数据网格数据织网都可用于管理数据,但每个都适合不同的需求。以下是何时使用每个。

用例

数据网格 数据织网
最适合 去中心化团队管理自己的数据 集中控制所有数据源
理想适用于 拥有多个领域的复杂组织 简化来自不同系统的数据
规模 在没有中央控制的情况下扩展跨团队的数据 管理来自多个来源的大量数据

数据网格的用例

数据网格在以下情况下很有帮助:

  • 金融服务:管理客户账户、交易和风险的数据。
  • 医疗保健:组织患者记录、索赔和研究数据。
  • 零售:连接客户、库存和销售数据。
  • 缓慢的数据处理流程:通过让团队控制自己的数据来加快速度。
  • 数据质量差:帮助提高每个部门的数据质量。
广告