在数据架构中,现代数据仓库 (MDW) 是一个中心存储库,组织可以在其中存储和分析所有数据。它结合了关系型数据仓库 (RDW) 的组织结构和数据湖的灵活性。这意味着企业可以访问实时数据,发现趋势,并改进与客户的连接方式。
通过最大限度地利用其数据,现代数据仓库帮助组织保持创新和竞争力。本章将探讨 MDW 的架构、工作原理以及实施步骤。
现代数据仓库 (MDW) 的架构结合了关系型数据仓库 (RDW) 和数据湖的功能。这种设计允许灵活的数据处理和强大的分析能力。
现代数据仓库 (MDW) 的结构结合了关系型数据仓库 (RDW) 的有序布局和数据湖的灵活性。这种设置使组织更容易有效地存储和分析其数据。
现代数据仓库 (MDW) 的结构旨在处理不同类型的数据和分析流程。它包括:
现代数据仓库 (MDW) 中的数据流阶段解释了如何收集、存储、处理和分析数据。此过程将原始数据转化为对企业有用的见解。其工作原理如下:
在设置现代数据仓库 (MDW) 时,组织应考虑以下几个重要方面。
现代数据仓库 (MDW) 越来越受欢迎,因为它们提供了一种灵活的数据管理方式。它们帮助组织将关系型数据仓库 (RDW) 和数据湖的最佳功能结合在一起,从而更轻松地处理和组合数据。
现代数据仓库 (MDW) 提供了许多优势,可帮助组织管理和分析其数据。以下是它们如何真正使企业受益。
虽然现代数据仓库具有许多优点,但也有一些缺点需要注意。了解这些限制对于成功实施至关重要。
在现代数据仓库 (MDW) 中,数据湖用于存储和准备数据,而关系型数据仓库 (RDW) 则确保数据安全并遵守规则。
数据湖是一个灵活的存储空间,数据科学家和技术用户可以轻松地处理大量原始数据。它帮助他们探索和清理数据。
关系型数据仓库专为希望快速轻松地访问结构化数据的业务用户而设计,使其非常适合生成报表和仪表板。
创建现代数据仓库 (MDW) 是一项艰巨的任务,需要大量投资技术和资源。随着组织开始这段旅程,他们通常需要临时解决方案来满足其当前的数据需求。这些解决方案是通向完整现代数据仓库的阶梯,帮助企业在有效利用数据的同时保持灵活性。
以下是三种常见的阶梯式架构:
每个选项都有其自身的优点和缺点。它们帮助组织迁移到现代数据仓库 (MDW) 的有效性取决于组织的需求、现有系统、预算和目标。让我们仔细研究每一个选项。
企业数据仓库 (EDW) 增强是一种方法,适用于已经拥有本地企业数据仓库 (EDW) 并希望管理更大数据集(通常称为“大数据”)的公司。这种方法帮助组织充分利用其数据,同时解决与存储和处理能力相关的挑战。
在此设置中,创建一个基于云的数据湖来存储大量数据。用户可以从此数据湖运行查询并创建报表,而主要数据保留在企业数据仓库 (EDW) 中。这允许公司使用云资源来管理大数据,而无需完全替换其现有系统。
以下是使用企业数据仓库 (EDW) 增强的主要优势。
虽然企业数据仓库 (EDW) 增强具有许多优点,但也有一些挑战是组织应该牢记的。
此设置可以帮助组织将其本地企业数据仓库 (EDW) 缓慢迁移到云端。一旦数据湖到位,公司就可以开始将数据从 EDW 传输到数据湖,并可能作为完整现代数据仓库 (MDW) 的一部分传输到新的基于云的关系型数据仓库 (RDW)。
当公司需要处理大数据但没有时间进行大规模更改时,可以使用临时数据湖 + EDW 方法。此设置通过临时使用数据湖来减轻 EDW 的压力。
在此模型中,数据湖是一个临时存储空间,用于存储和改进数据。所有查询和报表都是通过企业数据仓库 (EDW) 完成的,使其易于设置和处理,而不会造成重大问题。
临时数据湖 + EDW 方法具有许多优势,可帮助组织更有效地管理其数据。
临时数据湖 + EDW 方法的主要挑战之一是,组织可能无法充分利用数据湖的优势,因为它只是临时使用的。这种有限的使用可能会阻止他们访问数据湖提供的所有功能和优势,从而降低其改进数据管理的效率。
这种方法可以通过少量更改轻松过渡到完整的现代数据仓库 (MDW),使其成为组织的实用阶梯。
一体化架构深受众多组织,特别是初创企业和小型企业的欢迎,因为它提供了一种简便的数据管理方式。它允许快速原型设计,并专注于获得即时结果。
在这种设置中,所有数据报告和查询都直接在数据湖中完成,无需单独的关系型数据仓库 (RDW)。这使得整体数据结构更加简单。
一体化方法具有若干重要优势,使组织的数据管理更加轻松。
一体化方法也面临一些挑战,尤其是在性能方面。如果没有关系型数据仓库 (RDW),组织可能会在速度、安全性和用户体验方面遇到困难。虽然一些专注于数据科学的公司可能仅靠数据湖就能应付,但最终他们需要添加关系型数据仓库 (RDW)才能充分受益于完整的现代数据仓库 (MDW)。
对于某些组织,特别是那些专注于数据科学的组织,仅使用数据湖就足够了。但是,要完全过渡到完整的现代数据仓库 (MDW),他们最终需要添加一个关系型数据仓库 (RDW)。
本章解释了现代数据仓库 (MDW)以及数据旅程中的五个步骤:摄取、存储、转换、建模和可视化。我们讨论了现代数据仓库 (MDW)的优势和挑战,并探讨了EDW增强和临时数据湖等方法。