数据挖掘多维关联规则


关联规则挖掘帮助我们找到大型数据集中的关系。

在多维关联中,

  • 多维关联规则包含多个方面。

  • 数值属性应该离散化。

  • 属性可以是无量纲的或定量的。

  • 定量特征是数值型的,并包含等级。

挖掘多维关联规则的三种方法是:

使用定量属性的静态离散化

离散化发生在挖掘之前,是静态的。离散化属性被视为绝对的,并使用称为Apriori算法的算法来搜索所有k频繁谓词集(需要k或k+1次表扫描)。频繁谓词集的每个子集都应该是连续的。数据立方体最适合挖掘,因为它们有助于加速挖掘。谓词单元与n维数据立方体的单元相关。

示例:在一个数据立方体中,3D立方体(id,名称,类别)是频繁的,那么它表明(id,名称)、(名称,类别)、(id,类别)也是频繁的。

使用定量属性的动态离散化

它也被称为挖掘定量关联规则,数值属性被动态离散化。

示例

age(A,"12..25")Λrank(A,"1..4")Λgets(A,"laptop computer")

输出

排名1

排名2

排名3

排名4

年龄,22-25

年龄,18-21

年龄,12-17

在这里,属性被分类到区间中,并且基于数据的分布。这些区间可以进一步组合进行分析,因此离散化是动态的。

元组网格

基于距离的聚类离散化

这是一个动态的离散化过程,它考虑了感兴趣数据之间的距离。

挖掘过程涉及两个步骤。

  • 通过执行聚类来找到所涉及属性的区间。

  • 通过搜索一起出现的集群组来获取关联规则。

注意:规则前件和后件中的集群是强相关的,并且一起出现。

结论

本文介绍了使用多维关联规则进行数据挖掘,这有助于找到数据集之间的关系,然后使用不同的方法(离散化)进行挖掘。第一种方法是使用静态离散化,它使用Apriori算法来定位谓词集。第二种是动态离散化,它有助于对数值属性进行动态离散化。第三种是基于距离的离散化,它测量数据点之间的距离。

更新于:2023年8月22日

4K+ 次浏览

开启您的职业生涯

通过完成课程获得认证

开始学习
广告