什么是数据仓库?
数据仓库是一种主要用于收集和管理来自各种来源的数据的技术,以便为企业提供有意义的商业洞察力。数据仓库专门设计用于支持管理决策。
简单来说,数据仓库定义了一个独立于组织运营数据库维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过提供可靠的整合历史信息平台进行分析,从而提供数据处理。
数据仓库在多维空间中概括和集中数据。数据仓库的构建包含数据清洗、数据集成和数据转换,可以看作是数据挖掘的重要预处理步骤。
它提供联机分析处理 (OLAP) 工具,用于交互式分析各种粒度的多维数据,这有助于有效的数据概括和数据挖掘。几种数据挖掘功能,包括关联、分类、预测和聚类,可以与 OLAP 操作集成,以构建不同抽象级别的交互式知识挖掘。
数据仓库主要有三种类型,如下所示:
企业数据仓库 (EDW) − 企业数据仓库是一个集中式仓库。它用于组织和表示数据。借助 EDW,用户可以根据主题对数据进行分类。
运营数据存储 − 在运营数据存储中,数据仓库实时刷新。因此,它更常用于包括存储记录等日常活动。
数据市集 − 数据市集可以定义为数据仓库的子集。它专为销售、财务等设计。
数据仓库的特征
数据仓库有以下几种特征:
面向主题 − 数据仓库的目标是为决策者建模和分析信息。因此,数据仓库通常通过排除对决策支持过程没有帮助的信息,提供对特定主题问题的简单明了的视图。
集成性 − 由于数据仓库通常是通过集成多个异构来源(例如关系数据库、平面文件和联机事务记录)构建的,因此需要使用数据清洗和数据集成技术来保证命名约定、编码机制、属性度量等的一致性。
随时间变化 − 保存数据是为了提供从历史角度来看的数据(例如,过去 5-10 年)。数据仓库中的每个关键机制都隐式或显式地包含时间元素。
非易失性 − 数据仓库始终是从运营环境中找到的软件数据转换而来的物理独立数据存储。由于这种分离,数据仓库不需要事务处理、恢复和并发控制结构。它通常只需要两种数据访问操作——初始数据加载和数据访问。