数据仓库和数据挖掘


数据仓库

数据仓库是一组工具和技术的集合,利用这些工具和技术可以从大量数据中提取更多知识。这有助于决策过程和改进信息资源。

数据仓库基本上是一个包含独特数据结构的数据库,允许对大量数据进行相对快速和简单的复杂查询。它是由多个异构来源创建的。

数据仓库的特点

  • 集成
  • 随时间变化
  • 非易失性

数据仓库的目的是支持决策过程。它使信息易于访问,因为我们可以从数据仓库生成报告。它通常包含从事务数据派生的历史数据,但也可能包含来自其他来源的数据。数据仓库始终与事务数据分开保存。

我们有多个数据源,我们对这些数据源应用 ETL 过程,其中我们从数据源提取数据,然后根据某些规则对其进行转换,然后将数据加载到所需的目的地,从而创建数据仓库。

数据挖掘

数据挖掘是指从大量数据中提取知识。数据源可以包括数据库、数据仓库、网络等。

知识发现是一个迭代序列

  • 数据清洗 - 删除不一致的数据。

  • 数据集成 - 将多个数据源合并为一个。

  • 数据选择 - 选择仅与分析相关的数据。

  • 数据转换 - 将数据转换为适合挖掘的格式。

  • 数据挖掘 - 用于提取数据模式的方法。

  • 模式评估 - 识别数据中有趣的模式。

  • 知识表示 - 使用可视化和知识表示技术。

可以挖掘哪些类型的数据?

  • 数据库数据
  • 数据仓库
  • 事务数据

数据挖掘的范围

  • 趋势和行为的自动预测:数据挖掘自动化了在大型数据库中查找预测信息的过程。例如:考虑一家营销公司。在这家公司中,数据挖掘使用过去的促销邮件来识别目标,以最大化回报。

  • 以前未知模式的自动发现:数据挖掘扫描数据库并识别以前隐藏的模式。例如:在零售商店中,数据挖掘将遍历整个数据库并找到通常一起购买的商品的模式。

更新于: 2020年6月19日

8K+ 次查看

启动你的 职业生涯

通过完成课程获得认证

开始
广告