什么是数据仓库调优?
数据仓库是一种能够收集和处理来自多个来源的数据的方法,为企业提供有意义的业务洞察。数据仓库专门设计用于支持管理决策。
简单来说,数据仓库定义了一个独立于组织运营数据库维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过提供可靠的整合历史信息平台进行分析来提供数据处理。
数据仓库将数据在多维空间中进行泛化和集中。数据仓库的构建包含数据清洗、数据集成和数据转换,可以看作是数据挖掘的重要预处理步骤。
它提供联机分析处理 (OLAP) 工具,用于交互式分析不同粒度的多维数据,这有助于有效的数据泛化和数据挖掘。包括关联、分类、预测和聚类在内的多种数据挖掘功能可以与 OLAP 操作集成,从而在不同抽象级别构建交互式知识挖掘。
OLAP 是一种广泛的术语,也涵盖了数据仓库。在这个模型中,数据以允许有效创建数据挖掘/文档的格式保存。OLAP 设计应适应对大型记录集进行文档记录,同时尽量减少运营效率的下降。
可以定义将 OLTP 结构中的数据结构转换为 OLAP 结构中的相同数据的完整术语是“维度建模”,它是数据仓库的基本构建块。
可以对数据仓库进行调优以提高性能。数据仓库是进入系统的入口点,它提供了改进性能的第一个机会。如果在数据加载之前或之后对数据仓库系统进行检查,则它将直接影响系统的容量和性能。
例如,如果数据是电话呼叫记录,则可以检查每个呼叫是否具有有效的客户标识符。如果数据是销售信息,则可以检查所售商品是否具有有效的产品标识符。
加载大量数据或执行繁重的 I/O 操作,当需要对每个记录应用大量检查和转换时,可能会占用大量 CPU 资源。可以使用直接加载技术来提高加载速度。也可以使用并行处理来提高速度。
以下步骤提供了调优数据仓库的最佳方法:
- 调整业务规则。
- 调整数据设计。
- 调整应用程序设计。
- 调整数据库的逻辑结构。
- 调整数据库操作。
- 调整访问路径。
- 调整 I/O 和物理结构。
- 调整资源争用。
- 调整底层模式。
广告