数据挖掘 - 任务



数据挖掘处理可以挖掘的模式类型。根据要挖掘的数据类型,数据挖掘中涉及两种功能类别:

  • 描述性
  • 分类与预测

描述性功能

描述性功能处理数据库中数据的通用属性。以下是描述性功能的列表:

  • 类/概念描述
  • 频繁模式挖掘
  • 关联挖掘
  • 相关性挖掘
  • 聚类挖掘

类/概念描述

类/概念是指要与类或概念关联的数据。例如,在一家公司中,销售商品的类别包括计算机和打印机,客户的概念包括大额消费者和预算消费者。此类类或概念的描述称为类/概念描述。这些描述可以通过以下两种方式得出:

  • 数据特征化 - 这指的是对所研究的类的的数据进行总结。此类研究称为目标类。

  • 数据区分 - 它指的是将一个类与某个预定义的组或类进行映射或分类。

频繁模式挖掘

频繁模式是在事务数据中频繁出现的模式。以下是频繁模式类型的列表:

  • 频繁项集 - 它指的是一组频繁一起出现的项目,例如牛奶和面包。

  • 频繁子序列 - 一系列频繁出现的模式,例如购买相机后接着购买存储卡。

  • 频繁子结构 - 子结构指的是不同的结构形式,例如图、树或格,它们可以与项集或子序列组合。

关联挖掘

关联用于零售销售,以识别经常一起购买的模式。此过程指的是揭示数据之间关系并确定关联规则的过程。

例如,零售商生成一个关联规则,表明 70% 的时间牛奶与面包一起出售,只有 30% 的时间饼干与面包一起出售。

相关性挖掘

这是一种额外的分析,用于揭示关联属性值对或两个项目集之间有趣的统计相关性,以分析它们是否对彼此产生积极、消极或无影响。

聚类挖掘

聚类是指一组类似的对象。 聚类分析 指的是形成彼此非常相似但与其他聚类中的对象截然不同的对象组。

分类与预测

分类 是查找描述数据类或概念的模型的过程。目的是能够使用此模型来预测类标签未知的对象的类。此派生模型基于对训练数据集的分析。派生模型可以以以下形式呈现:

  • 分类(IF-THEN)规则
  • 决策树
  • 数学公式
  • 神经网络

这些过程中涉及的功能列表如下:

  • 分类 - 它预测类标签未知的对象的类。其目标是找到一个派生模型来描述和区分数据类或概念。派生模型基于训练数据集的分析,即类标签众所周知的对象。

  • 预测 - 它用于预测缺失或不可用的数值数据值,而不是类标签。回归分析通常用于预测。预测也可用于根据可用数据识别分布趋势。

  • 异常值分析 - 异常值可以定义为不符合可用数据的通用行为或模型的数据对象。

  • 演化分析 - 演化分析指的是描述和建模其行为随时间变化的对象的规律或趋势。

数据挖掘任务原语

  • 我们可以用 数据挖掘查询 的形式指定数据挖掘任务。
  • 此查询是输入到系统中的。
  • 数据挖掘查询是根据数据挖掘任务原语定义的。

注意 - 这些原语允许我们以交互方式与数据挖掘系统进行通信。以下是数据挖掘任务原语的列表:

  • 要挖掘的相关数据的集合。
  • 要挖掘的知识类型。
  • 用于发现过程的背景知识。
  • 模式评估的趣味性度量和阈值。
  • 用于可视化发现模式的表示。

要挖掘的相关数据的集合

这是用户感兴趣的数据库的一部分。此部分包括以下内容:

  • 数据库属性
  • 感兴趣的数据仓库维度

要挖掘的知识类型

它指的是要执行的功能类型。这些功能包括:

  • 特征化
  • 区分
  • 关联和相关性分析
  • 分类
  • 预测
  • 聚类
  • 异常值分析
  • 演化分析

背景知识

背景知识允许在多个抽象级别上挖掘数据。例如,概念层次结构是允许在多个抽象级别上挖掘数据的背景知识之一。

模式评估的趣味性度量和阈值

这用于评估知识发现过程中发现的模式。对于不同类型的知识,有不同的趣味性度量。

用于可视化发现模式的表示

这指的是发现模式的显示形式。这些表示可能包括以下内容:

  • 规则
  • 表格
  • 图表
  • 图形
  • 决策树
  • 多维数据集
广告