频繁模式挖掘的标准是什么?
频繁模式挖掘有几个标准,如下所示:
基于要挖掘的模式的完整性 - 在给定最小支持阈值的情况下,它可以挖掘所有频繁项集、闭合频繁项集和最大频繁项集。
它还可以提取受约束的频繁项集(它可以满足一组用户定义的约束)、近似频繁项集(它可以仅更改挖掘的频繁项集的近似支持计数)、近似匹配频繁项集(它可以计算相对匹配项集的支持计数)、前 k 个频繁项集(即,对于用户指定的 k 值,k 个最频繁的项集)等。
一些应用程序可能对要挖掘的模式的完整性有多个要求,这可能导致不同的计算和优化方法。
基于规则集中包含的抽象级别 - 关联规则挖掘有几种方法可以在多个抽象级别上发现规则。例如,考虑一组挖掘的关联规则包含以下规则,其中 X 是定义客户的变量:
购买(X,“电脑”) ⇒ 购买(X,“惠普打印机”)
购买(X,“笔记本电脑”) ⇒ 购买(X,“惠普打印机”)
基于规则中包含的数据维度数量 - 如果关联规则中的项目或属性仅引用一个维度,则它是单维关联规则。
基于规则中处理的值类型 - 如果规则包含项目存在和不存在之间的关联,则它是布尔关联规则。如果规则定义定量项目或属性之间的关联,则它是定量关联规则。在这些规则中,项目或属性的定量值被分成区间。
基于要挖掘的规则类型 - 频繁模式分析可以创建几种类型的规则和不同的有趣关系。关联规则是从频繁模式生成的著名类型的规则。
基于要挖掘的模式类型 - 可以从多种类型的数据集中挖掘几种类型的频繁模式。主要目标是频繁项集挖掘,即从事务或关系数据集中挖掘频繁项集(项目集)。
序列模式挖掘在序列数据集中搜索频繁子序列,其中序列数据是事件的排序。例如,使用序列模式挖掘,可以研究通常购买项目的系列。例如,用户可能倾向于先购买 PC,然后购买数码相机,然后购买存储卡。
广告