258 次浏览
用于挖掘不频繁模式的第一类技术将每个项目视为对称二元变量。可以通过添加负项目来二值化事务信息。它显示了一个将初始数据更改为包含正负项目的交易的实例。通过对增强的事务使用包括 Apriori 在内的当前频繁项集生成算法,可以导出一些负项集。这种方法只有在将多个变量视为对称二元(即,它用于包含少量项目否定值的负模式)时才可能。如果每个项目应该 ... 阅读更多
396 次浏览
处理图同构问题的标准方法是将每个图映射到一个特定的字符串表示形式,称为其代码或规范标签。规范标签具有以下属性:如果两个图是同构的,则它们的代码应该相等。此属性使我们能够通过分析图的规范标签来测试图同构。构建图规范标签的第一阶段是发现图的邻接矩阵描述。它显示了给定图的此类矩阵的一个实例。一个图可以有多个邻接矩阵 ... 阅读更多
1K+ 次浏览
关联分析算法有可能生成大量的模式。例如,尽管数据集仅包含六个项目,但在特定支持度和置信度阈值下,它可以创建多达数千条关联规则。由于真实货币数据库的大小和维度可能很大,因此它们很容易最终产生数千甚至数百万个模式,其中一些可能并不有趣。分析模式以识别最有趣的模式并非一项简单的服务,因为一个人的垃圾可能是另一个人的财富。必须创建一个集合 ... 阅读更多
750 次浏览
FP-tree 是输入数据的简洁描述。它是通过一次读取一个事务的数据集并测量每个事务到 FP-tree 中的路径来构建的。多个事务可能有多个共同的项目,它们的路径可能重叠。路径彼此重叠越多,使用 FP-tree 架构实现的压缩就越多。如果 FP-tree 的大小足以容纳在主内存中,这将使我们能够直接从内存中的架构中提取频繁项集,而不是对保存在磁盘上的数据进行重复传递。每个 ... 阅读更多
3K+ 次浏览
Apriori 是一个强烈解决了频繁项集生成组合爆炸的算法。它通过使用 Apriori 原理来缩短指数搜索空间来实现这一点。尽管它极大地提高了性能,但该算法需要大量的 I/O 开销,因为它需要对事务记录集进行多次传递。对于密集数据集,Apriori 算法的操作可能会大大降低,因为事务的宽度会增加。已经开发了几种方法来克服这些缺点并提高 Apriori 算法的效率。以下是这些方法的高级描述,如下所示:遍历 ... 阅读更多
最大频繁项集表示为一个频繁项集,其任何直接超集都不是频繁的。晶格中的项集被分成两组,即频繁项集和不频繁项集。一个频繁项集边界,由虚线定义。位于边界上方的每个项集都是频繁的,而位于边界下方的项集(阴影节点)是不频繁的。在位于边界附近的项集中,{a, d}、{a, c, e} 和 {b, c, d, e} 被视为最大频繁项集,因为它们的直接超集是不频繁的。一个 ... 阅读更多
2K+ 次浏览
Apriori 算法的计算复杂度会受到以下因素的影响,如下所示:支持度阈值 - 降低支持度阈值会导致更多项集被声明为频繁项集。这对算法的计算复杂度有不利影响,因为需要生成和计算更多的候选项集。频繁项集的最大大小也会随着支持度阈值的降低而增加。随着频繁项集的最大大小的增加,该算法需要对数据集进行更多遍扫描。项目数量(维度) - 随着项目数量的增加, ... 阅读更多
支持度计数是确定每个候选项集出现频率的过程,这些候选项集通过 apriori-gen 函数的候选剪枝步骤。一种执行此操作的方法是将每个事务与每个候选项集进行比较,并更新事务中包含的候选项集的支持度计数。这种方法在计算上代价高昂,尤其是在事务和候选项集数量很多时。第二种方法是枚举每个事务中包含的项集,并使用它们来更新其相应候选项集的支持度计数。考虑一个包含五个项目的事务 t,{I, 2, 3, ... 阅读更多
支持度是一个重要的度量,因为支持度非常低的规则很容易偶然出现。从业务角度来看,低支持度规则也可能很乏味,因为提高用户很少一起购买的项目的收益可能并不高。关联规则是形式为 X→Y 的蕴含描述,其中 X 和 Y 是不相交的项集,即 $\mathrm{X\cap\:Y=\phi}$。关联规则的强度可以用其支持度和置信度来计算。支持度决定了规则在给定数据集中的可用性,而置信度决定了 ... 阅读更多
363 次浏览
采样是一种广泛用于处理类别不平衡问题的常用方法。采样的概念是改变样本的分布,以便在训练集中很好地定义稀有类别。采样有多种技术,例如欠采样、过采样以及这两种方法的混合。例如,考虑一个包含 100 个正样本和 1000 个负样本的数据集。在欠采样方法中,随机选择 100 个负样本与所有正样本一起构成训练集。此方法的一个问题是,某些… 阅读更多