数据结构文章 - 第 141 页，共 187 页 - Tutorialspoint

找到关于数据结构的1861篇文章

关联模式的评估是什么？

Ginni

更新于 2022年2月11日 13:36:08

1K+ 次浏览

关联分析算法有可能产生大量的模式。例如，即使数据集只包含六个项目，它也可以在特定的支持度和置信度阈值下创建数千条关联规则。由于真实的货币数据库的规模和维度可能很大，它们很容易最终产生数千甚至数百万个模式，其中一些可能并不有趣。分析这些模式以识别最有趣的模式并非易事，因为一个人的垃圾可能是另一个人的宝藏。创建一组……阅读更多

FP-Tree的表示是什么？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:34:25

750 次浏览

FP-tree是对输入数据的简洁描述。它是通过一次读取一个事务的数据集并测量每个事务到FP-tree中的路径来构建的。多个事务可能有多个共同项，它们的路径可以重叠。路径彼此重叠越多，使用FP-tree架构实现的压缩就越多。如果FP-tree的大小足以放入主内存，这将使我们能够直接从内存中的架构中提取频繁项集，而不是对保存在磁盘上的数据进行重复的遍历。每个……阅读更多

生成频繁项集的方法有哪些？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:30:47

3K+ 次浏览

Apriori算法强烈地解决了频繁项集生成的组合爆炸问题。它通过使用Apriori原理来缩短指数搜索空间来实现这一点。尽管它显著提高了性能，但该算法会产生相当大的I/O开销，因为它需要对事务记录集进行多次遍历。对于密集数据集，Apriori算法的性能可能会大大降低，因为事务的宽度会增加。已经开发出几种方法来克服这些缺点并提高Apriori算法的效率。以下是这些方法的高级描述：遍历……阅读更多

什么是最大频繁项集？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:28:28

3K+ 次浏览

最大频繁项集表示为一个频繁项集，其任何直接超集都不是频繁的。晶格中的项集被分成两组，即频繁的和不频繁的。频繁项集边界由虚线定义。边界上方的每个项集都是频繁的，而边界下方的项集（阴影节点）是不频繁的。在靠近边界的项集之间，{a, d}，{a, c, e}和{b, c, d, e}被认为是最大频繁项集，因为它们的直接超集是不频繁的。一个……阅读更多

Apriori算法的复杂度是多少？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:21:18

2K+ 次浏览

Apriori算法的计算复杂度会受到以下因素的影响：支持度阈值 - 降低支持度阈值会导致更多项集被声明为频繁项集。这对算法的计算复杂度有不利影响，因为需要生成和计算更多的候选项集。频繁项集的最大大小也会随着支持度阈值的降低而增加。随着频繁项集最大大小的增加，算法将需要对数据集进行更多次的遍历。项数（维度） - 随着项数的增加，……阅读更多

什么是支持度计数？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:17:48

2K+ 次浏览

支持度计数是确定通过apriori-gen函数的候选剪枝步骤后每个候选项集出现频率的过程。一种方法是将每个事务与每个候选项集进行比较，并更新事务中包含的候选项的支持度计数。这种方法计算成本很高，尤其是在事务和候选项集数量较多的情况下。第二种方法是对每个事务中包含的项集进行枚举，并使用它们来更新其相应候选项集的支持度计数。考虑一个包含五个项的事务t，{I, 2, 3，……阅读更多

为什么在数据挖掘中使用支持度和置信度？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:14:15

2K+ 次浏览

支持度是一个重要的度量，因为支持度非常低的规则很容易偶然出现。从业务角度来看，低支持度规则也可能很乏味，因为提升用户很少一起购买的商品可能并不划算。关联规则是形式为X→Y的蕴含描述，其中X和Y是不相交的项集，即$\mathrm{X\cap\:Y=\phi}$。关联规则的强度可以用其支持度和置信度来计算。支持度决定了给定数据集的可访问规则，而置信度决定了……阅读更多

什么是基于抽样的方法？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:12:32

363 次浏览

抽样是处理类别不平衡问题的一种广泛使用的方法。抽样的概念是改变示例的分布，以便在训练集中很好地定义稀有类别。有各种抽样技术，例如欠采样、过采样以及这两种方法的混合。例如，考虑一个数据集，其中包含100个正例和1000个反例。在欠采样方法中，选择100个反例的随机样本，与所有正例一起形成训练集。这种方法的一个问题是……阅读更多

什么是随机森林？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:08:44

183 次浏览

随机森林是一类专门为决策树分类器设计的集成方法。它整合了多个决策树做出的预测，其中每棵树都是基于一组单独的随机向量值创建的。与AdaBoost中使用的自适应方法不同，随机向量是从常数概率分布中生成的，在AdaBoost中，概率分布是不同的，目标是难以分类的实例。Bagging决策树是随机森林的一个明确案例，其中通过从初始训练集中随机选择N个样本（有放回）来将随机性插入到模型构建过程中。Bagging……阅读更多

构建集成分类器的方法有哪些？

数据挖掘数据库数据结构

Ginni

更新于 2022年2月11日 13:07:01

472 次浏览

其概念是从初始数据中构建多个分类器，然后在描述未知示例时聚合它们的预测。集成分类器可以通过多种方法构建：通过操作训练集 - 在这种方法中，通过根据某种采样分布对初始数据进行重采样来生成多个训练集。采样分布决定了实例被选择的可能性，并且它可以从一个试验到另一个试验发生变化。使用特定的学习算法从每个训练集中构建一个分类器。Bagging和boosting是……阅读更多