如何从事务数据库中挖掘多级关联规则?
挖掘多级关联规则的方法基于支持置信度框架。采用自顶向下的策略,其中在每个概念级别累积计数以计算频繁项集,从概念级别 1 开始,向更低的特定概念级别工作,直到可以使用 Apriori 算法找到更多频繁项集。
可以通过用数据中较低级别的概念替换其更高级别的概念或概念层次结构中的祖先来概括数据。在概念层次结构中,它表示为一棵树,其根为 D,即任务相关数据。
多级关联的流行应用领域是市场篮子分析,它通过搜索经常一起购买的项目集来研究客户的购买习惯,这在概念层次结构的概念中显示。
每个节点表示一个已检查的项目或项目集。在任何抽象级别查找频繁项集都有各种方法。一些正在使用的方法是“对所有级别使用统一的最小支持”、“在较低级别使用减少的最小支持”、“逐级独立”。
多级数据库需要一个层次数据编码的事务表,而不是初始事务表。当我们只对事务数据库的一部分感兴趣时,例如食物,而不是所有项目,这很有用。这样,我们可以首先收集相关的数据集,然后重复处理任务相关的数据集。因此,在事务表中,每个项目都被编码为一系列数字。
对所有级别使用统一的最小支持 - 当使用统一的最小支持阈值时,搜索过程会得到简化。可以采用一种优化技术,基于祖先与其后代的超集的知识,搜索避免检查包含任何其祖先没有最小支持的项目的项集。
统一支持方法的主要缺点是较低抽象级别的项目出现的频率与较高抽象级别的项目一样频繁。
在较低级别使用减少的最小支持 - 每个抽象级别都有其最小支持阈值。抽象级别越低,等效阈值越小。以下是在降低支持的情况下挖掘多级关联的搜索类别:
逐级独立 - 它是完全广度优先搜索,使用频繁项集的背景知识进行剪枝。这里检查每个节点,而不管父节点是否被发现是频繁的。
单个项目逐级交叉过滤 - 仅当第 (i-1) 级的父节点频繁时,才确定第 i 级的项目。
k-项集逐级交叉过滤 - 仅当第 (i-1) 级的等效父 A-项集频繁时,才确定第 i 级的项集。