数据仓库 - 术语



在本章中,我们将讨论数据仓库中一些最常用的术语。

元数据

元数据简单来说就是关于数据的数据。用于表示其他数据的数据称为元数据。例如,书籍的索引充当书籍内容的元数据。换句话说,我们可以说元数据是引导我们获取详细数据的汇总数据。

在数据仓库方面,我们可以将元数据定义如下:

  • 元数据是数据仓库的路线图。

  • 数据仓库中的元数据定义了仓库对象。

  • 元数据充当目录。此目录帮助决策支持系统找到数据仓库的内容。

元数据仓库

元数据仓库是数据仓库系统的一个组成部分。它包含以下元数据:

  • 业务元数据 - 它包含数据所有权信息、业务定义和变更策略。

  • 操作元数据 - 它包括数据的有效性和数据血统。数据的有效性是指数据处于活动状态、已归档或已清除。数据血统是指数据迁移的历史记录以及对其应用的转换。

  • 从操作环境到数据仓库的映射数据 - 此元数据包括源数据库及其内容、数据提取、数据分区、清洗、转换规则、数据刷新和清除规则。

  • 汇总算法 - 它包括维度算法、粒度数据、聚合、汇总等。

数据立方体

数据立方体帮助我们以多个维度表示数据。它由维度和事实定义。维度是企业保留记录的实体。

数据立方体的示例

假设一家公司希望借助销售数据仓库跟踪销售记录,并根据时间、商品、分支机构和地点进行跟踪。这些维度允许跟踪每月的销售额以及商品在哪个分支机构销售。每个维度都关联一个表。此表称为维度表。例如,“商品”维度表可能具有商品名称、商品类型和商品品牌等属性。

下表显示了公司根据时间、商品和地点维度进行销售数据记录的二维视图。

data cube 2D

但在此二维表中,我们仅记录了时间和商品。新德里的销售额根据时间和商品维度显示,根据销售的商品类型显示。如果我们想查看另一个维度,例如地点维度,则三维视图将很有用。下表显示了根据时间、商品和地点进行销售数据的 3D 视图:

data cube 3D

上面的三维表可以表示为如下图所示的三维数据立方体:

data cube 3D

数据 Mart

数据 Mart 包含组织范围数据的一个子集,这些数据对组织中特定人群有价值。换句话说,数据 Mart 仅包含特定群体所需的数据。例如,营销数据 Mart 可能仅包含与商品、客户和销售相关的数据。数据 Mart 限于主题。

关于数据 Mart 的要点

  • 基于 Windows 或 Unix/Linux 的服务器用于实现数据 Mart。它们在低成本服务器上实现。

  • 数据 Mart 的实现周期以较短的时间段(即以周而不是月或年)来衡量。

  • 从长远来看,如果数据 Mart 的计划和设计不是组织范围的,那么其生命周期可能会很复杂。

  • 数据 Mart 的规模较小。

  • 数据 Mart 由部门定制。

  • 数据 Mart 的来源是按部门结构化的数据仓库。

  • 数据 Mart 很灵活。

下图显示了数据 Mart 的图形表示。

data mart

虚拟仓库

对操作数据仓库的视图称为虚拟仓库。构建虚拟仓库很容易。构建虚拟仓库需要操作数据库服务器上的额外容量。

广告