数据挖掘 - 术语



数据挖掘

数据挖掘定义为从海量数据中提取信息。换句话说,数据挖掘就是从数据中挖掘知识。这些信息可用于以下任何应用:

  • 市场分析
  • 欺诈检测
  • 客户保留
  • 生产控制
  • 科学探索

数据挖掘引擎

数据挖掘引擎对于数据挖掘系统至关重要。它由一组功能模块组成,执行以下功能:

  • 特征描述
  • 关联和相关性分析
  • 分类
  • 预测
  • 聚类分析
  • 离群值分析
  • 演变分析

知识库

这是领域知识。此知识用于指导搜索或评估所得模式的趣味性。

知识发现

一些人将数据挖掘与知识发现等同起来,而另一些人则将数据挖掘视为知识发现过程中的一个重要步骤。以下是知识发现过程涉及的步骤:

  • 数据清洗
  • 数据集成
  • 数据选择
  • 数据转换
  • 数据挖掘
  • 模式评估
  • 知识呈现

用户界面

用户界面是数据挖掘系统的一个模块,它有助于用户与数据挖掘系统之间的通信。用户界面允许以下功能:

  • 通过指定数据挖掘查询任务与系统交互。
  • 提供信息以帮助集中搜索。
  • 基于中间数据挖掘结果进行挖掘。
  • 浏览数据库和数据仓库模式或数据结构。
  • 评估挖掘的模式。
  • 以不同的形式可视化模式。

数据集成

数据集成是一种数据预处理技术,它将来自多个异构数据源的数据合并到一个一致的数据存储中。数据集成可能涉及不一致的数据,因此需要数据清洗。

数据清洗

数据清洗是一种用于去除噪声数据和纠正数据中不一致性的技术。数据清洗涉及转换以纠正错误数据。数据清洗是在准备数据仓库数据的过程中作为数据预处理步骤执行的。

数据选择

数据选择是从数据库中检索与分析任务相关的数据的过程。有时在数据选择过程之前会执行数据转换和整合。

集群

集群是指一组类似的对象。聚类分析是指形成彼此非常相似但与其他集群中的对象大相径庭的对象组。

数据转换

在此步骤中,通过执行汇总或聚合操作,将数据转换为或整合为适合挖掘的形式。

广告