数据仓库 - 概述



“数据仓库”一词最早由 Bill Inmon 于 1990 年提出。根据 Inmon 的说法,数据仓库是面向主题的、集成的、随时间变化的、非易失性的数据集合。这些数据帮助分析师在组织中做出明智的决策。

操作型数据库由于发生的交易每天都会发生频繁的变化。假设业务主管希望分析任何数据的先前反馈,例如产品、供应商或任何消费者数据,那么主管将无法获得任何可供分析的数据,因为先前的数据由于交易而被更新。

数据仓库为我们提供了多维视图中的通用和合并数据。除了数据的通用和合并视图之外,数据仓库还为我们提供了联机分析处理 (OLAP) 工具。这些工具帮助我们在多维空间中进行交互式和有效的分析。这种分析导致数据泛化和数据挖掘。

关联、聚类、分类、预测等数据挖掘功能可以与 OLAP 操作集成,以增强多层次抽象中知识的交互式挖掘。这就是为什么数据仓库现在已成为数据分析和联机分析处理的重要平台。

理解数据仓库

  • 数据仓库是一个数据库,它与组织的操作型数据库分开保存。

  • 数据仓库没有频繁更新。

  • 它拥有合并的历史数据,这有助于组织分析其业务。

  • 数据仓库帮助高管组织、理解和使用其数据以做出战略决策。

  • 数据仓库系统有助于集成各种应用程序系统。

  • 数据仓库系统有助于合并的历史数据分析。

为什么数据仓库与操作型数据库分离

数据仓库与操作型数据库分开保存是由于以下原因 -

  • 操作型数据库是为众所周知的任务和工作负载(例如搜索特定记录、索引等)而构建的。相比之下,数据仓库查询通常很复杂,并且它们呈现出一般形式的数据。

  • 操作型数据库支持多个事务的并发处理。操作型数据库需要并发控制和恢复机制来确保数据库的健壮性和一致性。

  • 操作型数据库查询允许读取和修改操作,而 OLAP 查询只需要存储数据的只读访问权限。

  • 操作型数据库维护当前数据。另一方面,数据仓库维护历史数据。

数据仓库特征

下面讨论数据仓库的关键特征 -

  • 面向主题 - 数据仓库面向主题,因为它提供围绕主题的信息,而不是组织的正在进行的操作。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库不关注正在进行的操作,而是关注决策的数据建模和分析。

  • 集成 - 数据仓库通过集成来自异构源(例如关系数据库、平面文件等)的数据来构建。这种集成增强了数据的有效分析。

  • 随时间变化 - 数据仓库中收集的数据与特定时间段相关联。数据仓库中的数据提供从历史角度看的信息。

  • 非易失性 - 非易失性意味着在添加新数据时不会擦除先前的数据。数据仓库与操作型数据库分开保存,因此操作型数据库中的频繁更改不会反映在数据仓库中。

注意 - 数据仓库不需要事务处理、恢复和并发控制,因为它在物理上存储并且与操作型数据库分开。

数据仓库应用

如前所述,数据仓库帮助业务主管组织、分析和使用其数据进行决策。数据仓库作为企业管理计划-执行-评估“闭环”反馈系统的唯一组成部分。数据仓库广泛应用于以下领域 -

  • 金融服务
  • 银行服务
  • 消费品
  • 零售行业
  • 受控制造

数据仓库类型

信息处理、分析处理和数据挖掘是下面讨论的三种数据仓库应用类型 -

  • 信息处理 - 数据仓库允许处理其中存储的数据。可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理数据。

  • 分析处理 - 数据仓库支持对其存储的信息进行分析处理。可以通过基本 OLAP 操作(包括切片和切块、向下钻取、向上钻取和透视)来分析数据。

  • 数据挖掘 - 数据挖掘通过查找隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以使用可视化工具进行呈现。

序号 数据仓库 (OLAP) 操作型数据库 (OLTP)
1 它涉及信息的历时处理。 它涉及日常处理。
2 OLAP 系统由知识工作者(如高管、经理和分析师)使用。 OLTP 系统由职员、DBA 或数据库专业人员使用。
3 它用于分析业务。 它用于运营业务。
4 它侧重于信息输出。 它侧重于数据输入。
5 它基于星型模式、雪花模式和事实星座模式。 它基于实体关系模型。
6 它侧重于信息输出。 它是面向应用程序的。
7 它包含历史数据。 它包含当前数据。
8 它提供汇总和合并的数据。 它提供原始和高度详细的数据。
9 它提供数据的汇总和多维视图。 它提供数据的详细和平面关系视图。
10 用户数量为数百。 用户数量为数千。
11 访问的记录数以百万计。 访问的记录数以十计。
12 数据库大小从 100GB 到 100 TB。 数据库大小从 100 MB 到 100 GB。
13 这些非常灵活。 它提供高性能。
广告