数据仓库 - 数据集市



为什么我们需要数据集市?

以下是创建数据集市的理由:

  • 为了对数据进行分区以实施访问控制策略

  • 通过减少要扫描的数据量来加快查询速度。

  • 将数据分割到不同的硬件平台。

  • 以适合用户访问工具的形式构造数据。

注意 - 不要为了其他任何原因而创建数据集市,因为数据集市的运营成本可能非常高。在创建数据集市之前,请确保数据集市策略适合您的特定解决方案。

经济高效的数据集市

按照以下步骤使数据集市具有成本效益:

  • 识别功能拆分
  • 识别用户访问工具需求
  • 识别访问控制问题

识别功能拆分

在此步骤中,我们确定组织是否具有自然的功能拆分。我们寻找部门拆分,并确定部门使用信息的方式是否倾向于与组织的其余部分隔离开来。让我们举个例子。

考虑一个零售组织,其中每个商家负责最大化一组产品的销售。为此,以下信息很有价值:

  • 每日销售交易
  • 每周销售预测
  • 每日库存状况
  • 每日库存变动

由于商家对他们不处理的产品不感兴趣,因此数据集市是与感兴趣的产品组相关联的数据的子集。下图显示了针对不同用户的 数据集市。

Data Marting

以下是确定功能拆分时需要考虑的问题:

  • 部门结构可能会发生变化。

  • 产品可能会从一个部门转移到另一个部门。

  • 商家可以查询其他产品的销售趋势,以分析销售情况。

注意 - 我们需要确定使用数据集市的业务效益和技术可行性。

识别用户访问工具需求

我们需要数据集市来支持用户访问工具,这些工具需要内部数据结构。此类结构中的数据不受数据仓库控制,但需要定期填充和更新。

有些工具可以直接从源系统填充,但有些则不能。因此,需要识别工具范围之外的其他需求以备将来之用。

注意 - 为了确保所有访问工具之间的数据一致性,数据不应直接从数据仓库填充,而是每个工具都必须拥有自己的数据集市。

识别访问控制问题

应该有隐私规则来确保只有授权用户才能访问数据。例如,零售银行机构的数据仓库确保所有账户都属于同一个法律实体。隐私法律可能会迫使您完全禁止访问不属于特定银行的信息。

数据集市允许我们通过物理分离数据仓库中的数据段来构建完整的墙。为了避免可能的隐私问题,可以从数据仓库中删除详细数据。我们可以为每个法律实体创建数据集市,并通过数据仓库加载它,其中包含详细的账户数据。

数据集市设计

数据集市应设计为数据仓库内星型雪花模式的较小版本,并应与数据仓库的数据库设计相匹配。这有助于维护对数据库实例的控制。

Designing Data Mart

摘要以与在数据仓库中设计相同的方式进行数据集市化。汇总表有助于利用星型雪花模式中的所有维度数据。

数据集市成本

数据集市的成本衡量标准如下:

  • 硬件和软件成本
  • 网络访问
  • 时间窗口约束

硬件和软件成本

尽管数据集市是在相同的硬件上创建的,但它们需要一些额外的硬件和软件。为了处理用户查询,它需要额外的处理能力和磁盘存储。如果详细数据和数据集市存在于数据仓库中,那么我们将面临存储和管理复制数据的额外成本。

注意 - 数据集市比聚合更昂贵,因此应将其用作附加策略,而不是替代策略。

网络访问

数据集市可能位于与数据仓库不同的位置,因此我们应确保局域网或广域网具有处理数据集市加载过程中传输的数据量的能力。

时间窗口约束

数据集市加载过程在多大程度上会占用可用时间窗口取决于转换的复杂性和正在传输的数据量。确定可以创建多少个数据集市取决于:

  • 网络容量。
  • 可用时间窗口
  • 正在传输的数据量
  • 用于将数据插入数据集市的机制
广告