挖掘负模式的技术有哪些?
第一类用于挖掘不频繁模式的技术将每个项目视为对称二元变量。事务信息可以通过添加负项目来二值化。它显示了一个将初始数据更改为包含正负项目的交易的实例。通过使用当前的频繁项集生成算法(包括 Apriori)在增广的事务上,可以导出一些负项集。
这种方法只有在将多个变量视为对称二元变量时才有可能(即,它用于包含少量项目否定形式的负模式)。如果每个项目都应被视为对称二元变量,则由于以下原因,问题在计算上变得很困难。
当每个项目与其相应的负项目一起增加时,多个项目会加倍。而不是探索大小为 2d 的项集格(其中 d 是初始数据集中项目的数量),格变得更高。
当增加负项目时,基于支持的剪枝不再有效。对于每个变量 x,x 或 x’ 提供了高于或等于 50% 的值。因此,即使支持阈值高达 50%,一半的项目也将频繁出现。
对于较低的阈值,包含它们的多个项目和可能的项集将频繁出现。Apriori 使用的支持性剪枝方法仅在大多数项集的支持度较低时才有效;因此,各种频繁项集呈指数增长。
当增加负项目时,每个事务的宽度都会提高。假设初始数据集中有 d 个项目可用。对于包括购物篮交易在内的稀疏数据集,每个事务的宽度影响远小于 d。
因此,受最大事务宽度 wmax 限制的频繁项集的最大大小影响与关联性较小。当包含负项目时,事务的宽度增加到 d,因为项目存在于事务中或不存在于事务中,但不能同时存在。
由于最大事务宽度已从 wmax 增加到 d,这将导致大量频繁项集的数量迅速变化。因此,某些当前算法在用于较长数据集时往往会崩溃。
先前的蛮力方法在计算上代价高昂,因为它迫使我们确定大量正负模式的支持度。另一种方法不是用负项目来增强数据集,而是根据其相关正项目的支持度来确定负项集的支持度。
广告