数据仓库 - 流程管理器



流程管理器负责维护数据进出数据仓库的流程。有三种不同类型的流程管理器:

  • 加载管理器
  • 仓库管理器
  • 查询管理器

数据仓库加载管理器

加载管理器执行将数据提取并加载到数据库中所需的运算。加载管理器的规模和复杂性在不同数据仓库的特定解决方案之间有所不同。

加载管理器架构

加载管理器执行以下功能:

  • 从源系统提取数据。

  • 将提取的数据快速加载到临时数据存储中。

  • 执行简单的转换,使其结构类似于数据仓库中的结构。

Load Manager

从源提取数据

数据从运营数据库或外部信息提供者提取。网关是用于提取数据的应用程序程序。它由底层 DBMS 支持,并允许客户端程序生成在服务器上执行的 SQL。开放数据库连接 (ODBC) 和 Java 数据库连接 (JDBC) 是网关的示例。

快速加载

  • 为了最大程度地减少总加载窗口,需要以尽可能快的速度将数据加载到仓库中。

  • 转换会影响数据处理速度。

  • 在应用转换和检查之前,将数据加载到关系数据库中更有效。

  • 网关技术不适用,因为在涉及大量数据时效率低下。

简单转换

在加载过程中,可能需要执行简单的转换。完成简单的转换后,我们可以进行复杂的检查。假设我们正在加载 EPOS 销售交易,我们需要执行以下检查:

  • 删除仓库中不需要的所有列。
  • 将所有值转换为所需的数据类型。

仓库管理器

仓库管理器负责仓库管理过程。它包括第三方系统软件、C 程序和 shell 脚本。仓库管理器的规模和复杂性在特定解决方案之间有所不同。

仓库管理器架构

仓库管理器包括以下内容:

  • 控制流程
  • 存储过程或带 SQL 的 C
  • 备份/恢复工具
  • SQL 脚本
Warehouse Manager

仓库管理器的功能

仓库管理器执行以下功能:

  • 分析数据以执行一致性和引用完整性检查。

  • 针对基础数据创建索引、业务视图、分区视图。

  • 生成新的聚合并更新现有的聚合。

  • 生成规范化。

  • 将临时存储的源数据转换并合并到已发布的数据仓库中。

  • 备份数据仓库中的数据。

  • 存档已达到其捕获生命周期末尾的数据。

注意 - 仓库管理器分析查询配置文件以确定索引和聚合是否合适。

查询管理器

查询管理器负责将查询引导到合适的表。通过将查询引导到适当的表,它可以加快查询请求和响应过程。此外,查询管理器还负责调度用户发布的查询的执行。

查询管理器架构

查询管理器包括以下组件:

  • 通过 C 工具或 RDBMS 进行查询重定向
  • 存储过程
  • 查询管理工具
  • 通过 C 工具或 RDBMS 进行查询调度
  • 通过第三方软件进行查询调度
Query Manager

查询管理器的功能

  • 它以用户理解的形式向用户呈现数据。

  • 它安排最终用户发布的查询的执行。

  • 它存储查询配置文件,以允许仓库管理器确定哪些索引和聚合是合适的。

广告