数据仓库和数据挖掘
数据仓库
数据仓库是一组工具和技术的集合,利用这些工具和技术可以从大量数据中提取更多知识。这有助于决策过程和改进信息资源。
数据仓库基本上是一个包含独特数据结构的数据库,允许对大量数据进行相对快速和简单的复杂查询。它是由多个异构来源创建的。
数据仓库的特点
- 集成
- 随时间变化
- 非易失性
数据仓库的目的是支持决策过程。它使信息易于访问,因为我们可以从数据仓库生成报告。它通常包含从事务数据派生的历史数据,但也可能包含来自其他来源的数据。数据仓库始终与事务数据分开保存。
我们有多个数据源,我们对这些数据源应用 ETL 过程,其中我们从数据源提取数据,然后根据某些规则对其进行转换,然后将数据加载到所需的目的地,从而创建数据仓库。
数据挖掘
数据挖掘是指从大量数据中提取知识。数据源可以包括数据库、数据仓库、网络等。
知识发现是一个迭代序列
数据清洗 - 删除不一致的数据。
数据集成 - 将多个数据源合并为一个。
数据选择 - 选择仅与分析相关的数据。
数据转换 - 将数据转换为适合挖掘的格式。
数据挖掘 - 用于提取数据模式的方法。
模式评估 - 识别数据中有趣的模式。
知识表示 - 使用可视化和知识表示技术。
可以挖掘哪些类型的数据?
- 数据库数据
- 数据仓库
- 事务数据
数据挖掘的范围
趋势和行为的自动预测:数据挖掘自动化了在大型数据库中查找预测信息的过程。例如:考虑一家营销公司。在这家公司中,数据挖掘使用过去的促销邮件来识别目标,以最大化回报。
以前未知模式的自动发现:数据挖掘扫描数据库并识别以前隐藏的模式。例如:在零售商店中,数据挖掘将遍历整个数据库并找到通常一起购买的商品的模式。
广告