数据挖掘多维关联规则
关联规则挖掘帮助我们找到大型数据集中的关系。
在多维关联中,
多维关联规则包含多个方面。
数值属性应该离散化。
属性可以是无量纲的或定量的。
定量特征是数值型的,并包含等级。
挖掘多维关联规则的三种方法是:
使用定量属性的静态离散化
离散化发生在挖掘之前,是静态的。离散化属性被视为绝对的,并使用称为Apriori算法的算法来搜索所有k频繁谓词集(需要k或k+1次表扫描)。频繁谓词集的每个子集都应该是连续的。数据立方体最适合挖掘,因为它们有助于加速挖掘。谓词单元与n维数据立方体的单元相关。
示例:在一个数据立方体中,3D立方体(id,名称,类别)是频繁的,那么它表明(id,名称)、(名称,类别)、(id,类别)也是频繁的。
使用定量属性的动态离散化
它也被称为挖掘定量关联规则,数值属性被动态离散化。
示例
age(A,"12..25")Λrank(A,"1..4")Λgets(A,"laptop computer")
输出
排名1 |
排名2 |
排名3 |
排名4 |
|
---|---|---|---|---|
年龄,22-25 |
||||
年龄,18-21 |
||||
年龄,12-17 |
在这里,属性被分类到区间中,并且基于数据的分布。这些区间可以进一步组合进行分析,因此离散化是动态的。
元组网格
基于距离的聚类离散化
这是一个动态的离散化过程,它考虑了感兴趣数据之间的距离。
挖掘过程涉及两个步骤。
通过执行聚类来找到所涉及属性的区间。
通过搜索一起出现的集群组来获取关联规则。
注意:规则前件和后件中的集群是强相关的,并且一起出现。
结论
本文介绍了使用多维关联规则进行数据挖掘,这有助于找到数据集之间的关系,然后使用不同的方法(离散化)进行挖掘。第一种方法是使用静态离散化,它使用Apriori算法来定位谓词集。第二种是动态离散化,它有助于对数值属性进行动态离散化。第三种是基于距离的离散化,它测量数据点之间的距离。
广告