挖掘负模式的技术有哪些？

数据挖掘数据库数据结构

第一类用于挖掘不频繁模式的技术将每个项目视为对称二元变量。事务信息可以通过添加负项目来二值化。它显示了一个将初始数据更改为包含正负项目的交易的实例。通过使用当前的频繁项集生成算法（包括 Apriori）在增广的事务上，可以导出一些负项集。

这种方法只有在将多个变量视为对称二元变量时才有可能（即，它用于包含少量项目否定形式的负模式）。如果每个项目都应被视为对称二元变量，则由于以下原因，问题在计算上变得很困难。

当每个项目与其相应的负项目一起增加时，多个项目会加倍。而不是探索大小为 2^d 的项集格（其中 d 是初始数据集中项目的数量），格变得更高。

当增加负项目时，基于支持的剪枝不再有效。对于每个变量 x，x 或 x^’ 提供了高于或等于 50% 的值。因此，即使支持阈值高达 50%，一半的项目也将频繁出现。

对于较低的阈值，包含它们的多个项目和可能的项集将频繁出现。Apriori 使用的支持性剪枝方法仅在大多数项集的支持度较低时才有效；因此，各种频繁项集呈指数增长。

当增加负项目时，每个事务的宽度都会提高。假设初始数据集中有 d 个项目可用。对于包括购物篮交易在内的稀疏数据集，每个事务的宽度影响远小于 d。

因此，受最大事务宽度 w_max 限制的频繁项集的最大大小影响与关联性较小。当包含负项目时，事务的宽度增加到 d，因为项目存在于事务中或不存在于事务中，但不能同时存在。

由于最大事务宽度已从 w_max 增加到 d，这将导致大量频繁项集的数量迅速变化。因此，某些当前算法在用于较长数据集时往往会崩溃。

先前的蛮力方法在计算上代价高昂，因为它迫使我们确定大量正负模式的支持度。另一种方法不是用负项目来增强数据集，而是根据其相关正项目的支持度来确定负项集的支持度。

基尼

更新于： 2022-02-14

257 次浏览

开启您的职业生涯

通过完成课程获得认证

开始

广告

© . All rights reserved.