找到关于数据库的6705 篇文章

什么是规范标签?

Ginni
更新于 2022年2月11日 13:45:01

396 次浏览

处理图同构问题的标准方法是将每个图映射到一个特定的字符串表示,称为其代码或规范标签。规范标签具有这样的特性:如果两个图是同构的,那么它们的代码应该相等。此属性使我们能够通过分析图的规范标签来测试图同构性。构建图的规范标签的第一步是为该图发现一个邻接矩阵描述。它显示了给定图的此类矩阵的一个实例。一个图可以有多个邻接矩阵……阅读更多

关联模式的评估是什么?

Ginni
更新于 2022年2月11日 13:36:08

1K+ 次浏览

关联分析算法有可能产生大量的模式。例如,尽管数据集只包含六个项目,但在特定的支持度和置信度阈值下,它最多可以创建数千条关联规则。由于实际货币数据库的规模和维度可能很大,因此它们很容易最终产生数千甚至数百万个模式,其中一些模式可能并不有趣。通过模式来识别最有趣的模式并不是一项简单的任务,因为一个人的垃圾可能是另一个人的宝藏。必须创建一个……阅读更多

FP-Tree 的表示是什么?

Ginni
更新于 2022年2月11日 13:34:25

750 次浏览

FP-tree 是输入数据的可靠描述。它是通过一次读取一个事务的数据集并测量每个事务到 FP-tree 中的路径来组装的。几个事务可能有多个共同项目,它们的路径可能重叠。路径之间重叠越多,使用 FP-tree 架构实现的压缩就越多。如果 FP-tree 的大小足以放入主内存中,这将使我们能够直接从内存中的架构中提取频繁项集,而不是对保存在磁盘上的数据进行重复的传递。每个……阅读更多

生成频繁项集的方法有哪些?

Ginni
更新于 2022年2月11日 13:30:47

3K+ 次浏览

Apriori 算法强烈地解决了频繁项集生成的组合爆炸问题。它通过使用 Apriori 原则来缩短指数搜索区域来实现这一点。尽管它具有重要的性能增强,但该算法获得了相当大的 I/O 开销,因为它需要对事务记录集进行多次传递。对于密集数据集,Apriori 算法的行为可能会严重下降,这是因为事务的宽度不断增加。已经开发出几种方法来克服这些缺点并提高 Apriori 算法的效率。以下是这些方法的高级描述:遍历……阅读更多

什么是最大频繁项集?

Ginni
更新于 2022年2月11日 13:28:28

3K+ 次浏览

最大频繁项集表示为频繁项集,其中其任何直接超集都不是频繁的。晶格中的项集被分成两组,即频繁项集和非频繁项集。频繁项集边界由虚线定义。位于边界上方的每个项集都是频繁的,而位于边界下方的项集(阴影节点)是非频繁的。位于边界附近的项集{a, d}、{a, c, e}和{b, c, d, e}被认为是最大频繁项集,因为它们的直接超集是非频繁的。一个……阅读更多

Apriori 算法的复杂度是多少?

Ginni
更新于 2022年2月11日 13:21:18

2K+ 次浏览

Apriori 算法的计算复杂度会受到以下因素的影响:支持度阈值 - 降低支持度阈值会导致更多项集被声明为频繁项集。这对算法的计算复杂度产生不利影响,因为应该生成和计数更多的候选项集。频繁项集的最大大小也会随着支持度阈值的降低而增加。随着频繁项集最大大小的增加,算法将需要对数据集进行更多次传递。项目数量(维度) - 随着项目数量的增加,……阅读更多

什么是支持度计数?

Ginni
更新于 2022年2月11日 13:17:48

2K+ 次浏览

支持度计数是确定通过 apriori-gen 函数的候选剪枝步骤后幸存的每个候选项集的出现频率的过程。一种方法是将每个事务与每个候选项集进行比较,并更新事务中包含的候选项集的支持度计数。这种方法计算成本很高,尤其是在事务和候选项集数量较多的情况下。第二种方法是枚举每个事务中包含的项集,并需要它们来更新其特定候选项集的支持度计数。考虑一个包含五个项目的事务 t,{I, 2, 3,……阅读更多

为什么在数据挖掘中使用支持度和置信度?

Ginni
更新于 2022年2月11日 13:14:15

2K+ 次浏览

支持度是一个重要的度量,因为支持度非常低的规则很容易偶然出现。支持度低的规则从业务角度来看也可能很乏味,因为提升用户很少一起购买的商品可能并不盈利。关联规则是形式为 X→Y 的蕴含描述,其中 X 和 Y 是不相交的项集,即 $\mathrm{X\cap\:Y=\phi}$。关联规则的强度可以用其支持度和置信度来计算。支持度决定了给定数据集的可访问规则,而置信度决定了……阅读更多

什么是基于采样的方法?

Ginni
更新于 2022年2月11日 13:12:32

363 次浏览

采样是一种广泛用于处理类不平衡问题的技术。采样的概念是改变示例的分布,以便在训练集中很好地定义稀有类。有各种采样技术,例如欠采样、过采样以及这两种方法的混合。例如,考虑一个包含 100 个正例和 1000 个反例的数据集。在欠采样方法中,选择 100 个反例的随机样本,与所有正例一起形成训练集。这种方法的一个问题是……阅读更多

什么是随机森林?

Ginni
更新于 2022年2月11日 13:08:44

183 次浏览

随机森林是一类集成方法,专门为决策树分类器而设计。它整合了多个决策树做出的预测,其中每棵树都是基于一组单独的随机向量的值创建的。与 AdaBoost 中使用的自适应方法不同,随机向量是从常数概率分布中生成的,在 AdaBoost 中,概率分布是不同的,以针对难以分类的实例。对决策树进行 Bagging 是随机森林的一个明确案例,其中通过从初始训练集中随机选择 N 个样本(带放回)将随机性插入到模型构建过程中。Bagging……阅读更多

广告