- 数据挖掘教程
- 数据挖掘 - 首页
- 数据挖掘 - 概述
- 数据挖掘 - 任务
- 数据挖掘 - 问题
- 数据挖掘 - 评估
- 数据挖掘 - 术语
- 数据挖掘 - 知识发现
- 数据挖掘 - 系统
- 数据挖掘 - 查询语言
- 分类与预测
- 数据挖掘 - 决策树归纳
- 数据挖掘 - 贝叶斯分类
- 基于规则的分类
- 数据挖掘 - 分类方法
- 数据挖掘 - 聚类分析
- 数据挖掘 - 挖掘文本数据
- 数据挖掘 - 挖掘万维网
- 数据挖掘 - 应用与趋势
- 数据挖掘 - 主题
- 数据挖掘有用资源
- 数据挖掘 - 快速指南
- 数据挖掘 - 有用资源
- 数据挖掘 - 讨论
数据挖掘 - 任务
数据挖掘处理可以挖掘的模式类型。根据要挖掘的数据类型,数据挖掘中涉及两种功能类别:
- 描述性
- 分类与预测
描述性功能
描述性功能处理数据库中数据的通用属性。以下是描述性功能的列表:
- 类/概念描述
- 频繁模式挖掘
- 关联挖掘
- 相关性挖掘
- 聚类挖掘
类/概念描述
类/概念是指要与类或概念关联的数据。例如,在一家公司中,销售商品的类别包括计算机和打印机,客户的概念包括大额消费者和预算消费者。此类类或概念的描述称为类/概念描述。这些描述可以通过以下两种方式得出:
数据特征化 - 这指的是对所研究的类的的数据进行总结。此类研究称为目标类。
数据区分 - 它指的是将一个类与某个预定义的组或类进行映射或分类。
频繁模式挖掘
频繁模式是在事务数据中频繁出现的模式。以下是频繁模式类型的列表:
频繁项集 - 它指的是一组频繁一起出现的项目,例如牛奶和面包。
频繁子序列 - 一系列频繁出现的模式,例如购买相机后接着购买存储卡。
频繁子结构 - 子结构指的是不同的结构形式,例如图、树或格,它们可以与项集或子序列组合。
关联挖掘
关联用于零售销售,以识别经常一起购买的模式。此过程指的是揭示数据之间关系并确定关联规则的过程。
例如,零售商生成一个关联规则,表明 70% 的时间牛奶与面包一起出售,只有 30% 的时间饼干与面包一起出售。
相关性挖掘
这是一种额外的分析,用于揭示关联属性值对或两个项目集之间有趣的统计相关性,以分析它们是否对彼此产生积极、消极或无影响。
聚类挖掘
聚类是指一组类似的对象。 聚类分析 指的是形成彼此非常相似但与其他聚类中的对象截然不同的对象组。
分类与预测
分类 是查找描述数据类或概念的模型的过程。目的是能够使用此模型来预测类标签未知的对象的类。此派生模型基于对训练数据集的分析。派生模型可以以以下形式呈现:
- 分类(IF-THEN)规则
- 决策树
- 数学公式
- 神经网络
这些过程中涉及的功能列表如下:
分类 - 它预测类标签未知的对象的类。其目标是找到一个派生模型来描述和区分数据类或概念。派生模型基于训练数据集的分析,即类标签众所周知的对象。
预测 - 它用于预测缺失或不可用的数值数据值,而不是类标签。回归分析通常用于预测。预测也可用于根据可用数据识别分布趋势。
异常值分析 - 异常值可以定义为不符合可用数据的通用行为或模型的数据对象。
演化分析 - 演化分析指的是描述和建模其行为随时间变化的对象的规律或趋势。
数据挖掘任务原语
- 我们可以用 数据挖掘查询 的形式指定数据挖掘任务。
- 此查询是输入到系统中的。
- 数据挖掘查询是根据数据挖掘任务原语定义的。
注意 - 这些原语允许我们以交互方式与数据挖掘系统进行通信。以下是数据挖掘任务原语的列表:
- 要挖掘的相关数据的集合。
- 要挖掘的知识类型。
- 用于发现过程的背景知识。
- 模式评估的趣味性度量和阈值。
- 用于可视化发现模式的表示。
要挖掘的相关数据的集合
这是用户感兴趣的数据库的一部分。此部分包括以下内容:
- 数据库属性
- 感兴趣的数据仓库维度
要挖掘的知识类型
它指的是要执行的功能类型。这些功能包括:
- 特征化
- 区分
- 关联和相关性分析
- 分类
- 预测
- 聚类
- 异常值分析
- 演化分析
背景知识
背景知识允许在多个抽象级别上挖掘数据。例如,概念层次结构是允许在多个抽象级别上挖掘数据的背景知识之一。
模式评估的趣味性度量和阈值
这用于评估知识发现过程中发现的模式。对于不同类型的知识,有不同的趣味性度量。
用于可视化发现模式的表示
这指的是发现模式的显示形式。这些表示可能包括以下内容:
- 规则
- 表格
- 图表
- 图形
- 决策树
- 多维数据集