数据挖掘 - 任务

数据挖掘处理可以挖掘的模式类型。根据要挖掘的数据类型，数据挖掘中涉及两种功能类别：

描述性
分类与预测

描述性功能

描述性功能处理数据库中数据的通用属性。以下是描述性功能的列表：

类/概念描述
频繁模式挖掘
关联挖掘
相关性挖掘
聚类挖掘

类/概念描述

类/概念是指要与类或概念关联的数据。例如，在一家公司中，销售商品的类别包括计算机和打印机，客户的概念包括大额消费者和预算消费者。此类类或概念的描述称为类/概念描述。这些描述可以通过以下两种方式得出：

数据特征化 - 这指的是对所研究的类的的数据进行总结。此类研究称为目标类。
数据区分 - 它指的是将一个类与某个预定义的组或类进行映射或分类。

频繁模式挖掘

频繁模式是在事务数据中频繁出现的模式。以下是频繁模式类型的列表：

频繁项集 - 它指的是一组频繁一起出现的项目，例如牛奶和面包。
频繁子序列 - 一系列频繁出现的模式，例如购买相机后接着购买存储卡。
频繁子结构 - 子结构指的是不同的结构形式，例如图、树或格，它们可以与项集或子序列组合。

关联挖掘

关联用于零售销售，以识别经常一起购买的模式。此过程指的是揭示数据之间关系并确定关联规则的过程。

例如，零售商生成一个关联规则，表明 70% 的时间牛奶与面包一起出售，只有 30% 的时间饼干与面包一起出售。

聚类挖掘

聚类是指一组类似的对象。聚类分析指的是形成彼此非常相似但与其他聚类中的对象截然不同的对象组。

分类与预测

分类是查找描述数据类或概念的模型的过程。目的是能够使用此模型来预测类标签未知的对象的类。此派生模型基于对训练数据集的分析。派生模型可以以以下形式呈现：

分类（IF-THEN）规则
决策树
数学公式
神经网络

这些过程中涉及的功能列表如下：

分类 - 它预测类标签未知的对象的类。其目标是找到一个派生模型来描述和区分数据类或概念。派生模型基于训练数据集的分析，即类标签众所周知的对象。
预测 - 它用于预测缺失或不可用的数值数据值，而不是类标签。回归分析通常用于预测。预测也可用于根据可用数据识别分布趋势。
异常值分析 - 异常值可以定义为不符合可用数据的通用行为或模型的数据对象。
演化分析 - 演化分析指的是描述和建模其行为随时间变化的对象的规律或趋势。

数据挖掘任务原语

我们可以用数据挖掘查询的形式指定数据挖掘任务。
此查询是输入到系统中的。
数据挖掘查询是根据数据挖掘任务原语定义的。

注意 - 这些原语允许我们以交互方式与数据挖掘系统进行通信。以下是数据挖掘任务原语的列表：

要挖掘的相关数据的集合。
要挖掘的知识类型。
用于发现过程的背景知识。
模式评估的趣味性度量和阈值。
用于可视化发现模式的表示。

要挖掘的相关数据的集合

这是用户感兴趣的数据库的一部分。此部分包括以下内容：

数据库属性
感兴趣的数据仓库维度

要挖掘的知识类型

它指的是要执行的功能类型。这些功能包括：

特征化
区分
关联和相关性分析
分类
预测
聚类
异常值分析
演化分析

背景知识

背景知识允许在多个抽象级别上挖掘数据。例如，概念层次结构是允许在多个抽象级别上挖掘数据的背景知识之一。

模式评估的趣味性度量和阈值

这用于评估知识发现过程中发现的模式。对于不同类型的知识，有不同的趣味性度量。

用于可视化发现模式的表示

这指的是发现模式的显示形式。这些表示可能包括以下内容：

规则
表格
图表
图形
决策树
多维数据集

打印页面