- 数据挖掘教程
- 数据挖掘 - 首页
- 数据挖掘 - 概述
- 数据挖掘 - 任务
- 数据挖掘 - 问题
- 数据挖掘 - 评估
- 数据挖掘 - 术语
- 数据挖掘 - 知识发现
- 数据挖掘 - 系统
- 数据挖掘 - 查询语言
- 分类与预测
- 数据挖掘 - 决策树归纳
- 数据挖掘 - 贝叶斯分类
- 基于规则的分类
- 数据挖掘 - 分类方法
- 数据挖掘 - 聚类分析
- 数据挖掘 - 挖掘文本数据
- 数据挖掘 - 挖掘万维网
- 数据挖掘 - 应用与趋势
- 数据挖掘 - 主题
- DM有用资源
- 数据挖掘 - 快速指南
- 数据挖掘 - 有用资源
- 数据挖掘 - 讨论
数据挖掘 - 评估
数据仓库
一个数据仓库表现出以下特征以支持管理层的决策过程:
**面向主题** - 数据仓库面向主题,因为它提供围绕某个主题的信息,而不是组织的持续运营。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库不关注持续运营,而是关注数据的建模和分析以进行决策。
**集成** - 数据仓库是通过集成来自异构源(如关系数据库、平面文件等)的数据构建的。这种集成增强了数据的有效分析。
**随时间变化** - 数据仓库中收集的数据与特定时间段相关联。数据仓库中的数据提供了从历史角度来看的信息。
**非易失性** - 非易失性意味着在添加新数据时不会删除先前的数据。数据仓库与操作数据库分开,因此操作数据库中的频繁更改不会反映在数据仓库中。
数据仓库技术
数据仓库技术是构建和使用数据仓库的过程。数据仓库是通过集成来自多个异构源的数据构建的。它支持分析报告、结构化和/或临时查询以及决策制定。
数据仓库技术涉及数据清理、数据集成和数据整合。为了集成异构数据库,我们有以下两种方法:
- 查询驱动方法
- 更新驱动方法
查询驱动方法
这是集成异构数据库的传统方法。此方法用于在多个异构数据库之上构建包装器和集成器。这些集成器也称为中介。
查询驱动方法的过程
当向客户端发出查询时,元数据字典会将查询转换为适合所涉及各个异构站点的查询。
现在这些查询被映射并发送到本地查询处理器。
来自异构站点的结果被集成到一个全局答案集中。
缺点
此方法具有以下缺点:
查询驱动方法需要复杂的集成和过滤过程。
对于频繁的查询,它非常低效且非常昂贵。
对于需要聚合的查询,此方法成本很高。
更新驱动方法
如今的数据仓库系统遵循更新驱动方法,而不是前面讨论的传统方法。在更新驱动方法中,来自多个异构源的信息预先集成并存储在仓库中。此信息可用于直接查询和分析。
优点
此方法具有以下优点:
此方法提供高性能。
数据可以在语义数据存储中预先复制、处理、集成、注释、汇总和重组。
查询处理不需要与本地源的处理进行接口。
从数据仓库(OLAP)到数据挖掘(OLAM)
联机分析挖掘将联机分析处理与多维数据库中的数据挖掘和挖掘知识相集成。以下是显示OLAP和OLAM集成的图表:
OLAM的重要性
OLAM 由于以下原因很重要:
**数据仓库中高质量的数据** - 数据挖掘工具需要在集成、一致和清理的数据上工作。这些步骤在数据预处理中非常昂贵。通过这种预处理构建的数据仓库是用于OLAP和数据挖掘的高质量数据的宝贵来源。
**围绕数据仓库的信息处理基础设施** - 信息处理基础设施是指访问、集成、整合和转换多个异构数据库、网络访问和服务设施、报告和OLAP分析工具。
**基于OLAP的探索性数据分析** - 有效的数据挖掘需要探索性数据分析。OLAM 为在各种数据子集和不同抽象级别上进行数据挖掘提供了便利。
**数据挖掘功能的联机选择** - 将OLAP与多个数据挖掘功能和联机分析挖掘相集成,使用户能够灵活地选择所需的数据挖掘功能并动态交换数据挖掘任务。