- 数据仓库教程
- DWH - 首页
- DWH - 概述
- DWH - 概念
- DWH - 术语
- DWH - 交付流程
- DWH - 系统流程
- DWH - 架构
- DWH - OLAP
- DWH - 关系型 OLAP
- DWH - 多维 OLAP
- DWH - 模式
- DWH - 分区策略
- DWH - 元数据概念
- DWH - 数据 Mart
- DWH - 系统管理员
- DWH - 流程管理员
- DWH - 安全
- DWH - 备份
- DWH - 调优
- DWH - 测试
- DWH - 未来展望
- DWH - 面试问题
- DWH 有用资源
- DWH - 快速指南
- DWH - 有用资源
- DWH - 讨论
数据仓库 - 术语
在本章中,我们将讨论数据仓库中一些最常用的术语。
元数据
元数据简单来说就是关于数据的数据。用于表示其他数据的数据称为元数据。例如,书籍的索引充当书籍内容的元数据。换句话说,我们可以说元数据是引导我们获取详细数据的汇总数据。
在数据仓库方面,我们可以将元数据定义如下:
元数据是数据仓库的路线图。
数据仓库中的元数据定义了仓库对象。
元数据充当目录。此目录帮助决策支持系统找到数据仓库的内容。
元数据仓库
元数据仓库是数据仓库系统的一个组成部分。它包含以下元数据:
业务元数据 - 它包含数据所有权信息、业务定义和变更策略。
操作元数据 - 它包括数据的有效性和数据血统。数据的有效性是指数据处于活动状态、已归档或已清除。数据血统是指数据迁移的历史记录以及对其应用的转换。
从操作环境到数据仓库的映射数据 - 此元数据包括源数据库及其内容、数据提取、数据分区、清洗、转换规则、数据刷新和清除规则。
汇总算法 - 它包括维度算法、粒度数据、聚合、汇总等。
数据立方体
数据立方体帮助我们以多个维度表示数据。它由维度和事实定义。维度是企业保留记录的实体。
数据立方体的示例
假设一家公司希望借助销售数据仓库跟踪销售记录,并根据时间、商品、分支机构和地点进行跟踪。这些维度允许跟踪每月的销售额以及商品在哪个分支机构销售。每个维度都关联一个表。此表称为维度表。例如,“商品”维度表可能具有商品名称、商品类型和商品品牌等属性。
下表显示了公司根据时间、商品和地点维度进行销售数据记录的二维视图。
但在此二维表中,我们仅记录了时间和商品。新德里的销售额根据时间和商品维度显示,根据销售的商品类型显示。如果我们想查看另一个维度,例如地点维度,则三维视图将很有用。下表显示了根据时间、商品和地点进行销售数据的 3D 视图:
上面的三维表可以表示为如下图所示的三维数据立方体:
数据 Mart
数据 Mart 包含组织范围数据的一个子集,这些数据对组织中特定人群有价值。换句话说,数据 Mart 仅包含特定群体所需的数据。例如,营销数据 Mart 可能仅包含与商品、客户和销售相关的数据。数据 Mart 限于主题。
关于数据 Mart 的要点
基于 Windows 或 Unix/Linux 的服务器用于实现数据 Mart。它们在低成本服务器上实现。
数据 Mart 的实现周期以较短的时间段(即以周而不是月或年)来衡量。
从长远来看,如果数据 Mart 的计划和设计不是组织范围的,那么其生命周期可能会很复杂。
数据 Mart 的规模较小。
数据 Mart 由部门定制。
数据 Mart 的来源是按部门结构化的数据仓库。
数据 Mart 很灵活。
下图显示了数据 Mart 的图形表示。
虚拟仓库
对操作数据仓库的视图称为虚拟仓库。构建虚拟仓库很容易。构建虚拟仓库需要操作数据库服务器上的额外容量。