找到 1861 篇文章 关于数据结构

什么是属性选择度量?

Ginni
更新于 2022-02-16 11:46:57

25K+ 浏览量

属性选择度量是一种启发式方法,用于选择“最佳”分离给定数据分区 D(带类标签的训练元组)成单个类的分裂测试。如果它可以根据分裂标准的结果将 D 分成更小的分区,理想情况下,每个分区都可以是纯净的(即,落入给定分区的一些元组可以属于同一类)。从概念上讲,“最佳”分裂标准最接近于产生这种方法的结果。属性选择度量称为分裂规则,因为它们决定如何在给定节点处的元组被划分。属性选择... 阅读更多

决策树如何用于分类?

Ginni
更新于 2022-02-16 11:44:47

1K+ 浏览量

决策树归纳是从带类标签的训练元组中学习决策树。决策树是一种类似于序列图的树结构,其中每个内部节点(非叶节点)表示对属性的测试,每个分支定义测试的结果,每个叶节点(或终端节点)影响类标签。树中最高的节点是根节点。它定义了概念“购买电脑”,即它预测 AllElectronics 的用户是否可能购买电脑。内部节点由矩形表示,叶节点由椭圆形表示。有各种决策树... 阅读更多

分类是如何工作的?

Ginni
更新于 2022-02-16 11:43:32

938 浏览量

分类是一种数据挖掘方法,它将元素分配到一组数据中,以帮助进行更有效的预测和分析。分类通常用于存在两个目标类的情况,称为二元分类。当可以预测超过两个类时,特别是在模式识别问题中,这被定义为多项式分类。但是,多项式分类可用于分类响应数据,其中需要预测各种元素中的哪个类别具有最大概率的实例。数据分类是一个两阶段的过程。在第一阶段,构建一个分类器,定义预先确定的数据集... 阅读更多

我们如何使用规则约束来修剪搜索空间?

Ginni
更新于 2022-02-16 11:40:48

119 浏览量

规则约束可以分为以下五个要素:反单调 - 约束的第一个要素是反单调。考虑规则约束“sum(I.price) ≤ 100”。考虑它正在使用 Apriori 框架,该框架在每次迭代 k 中分析大小为 k 的项集。如果项集中项目的成本总和不少于 100,则可以从搜索空间中缩短此项集,因为在集合中插入更多项目只会使其成本更高,因此将无法满足约束条件。可以通过反单调约束进行修剪... 阅读更多

元规则在数据挖掘中有什么用?

Ginni
更新于 2022-02-16 11:37:34

705 浏览量

数据挖掘是通过传输存储在存储库中的大量数据来查找有用的新关联、模式和趋势的过程,使用模式识别技术,包括统计和数学技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者而言既合乎逻辑又有所帮助的新颖方式总结记录。它是选择、探索和建模大量信息的过程,以查找最初未知的规律或关系,以便为数据库所有者获得清晰和有益的结果。数据挖掘类似... 阅读更多

什么是基于约束的关联挖掘?

Ginni
更新于 2022-02-16 11:36:27

21K+ 浏览量

数据挖掘过程可以从给定的一组信息中发现数千条规则,其中大多数最终对用户来说是独立的或乏味的。用户最清楚哪种挖掘“方向”可以导致有趣的模式,以及他们可能希望发现的模式或规则的“形式”。因此,一个好的启发式方法是让用户将这种直觉或期望定义为约束,以约束搜索空间。此策略称为基于约束的挖掘。基于约束的算法需要约束来减少频繁项集生成步骤(关联规则生成步骤... 阅读更多

关联规则聚类系统涉及哪些步骤?

Ginni
更新于 2022-02-16 11:34:44

1K+ 浏览量

关联规则聚类系统中涉及以下步骤:分箱 - 定量属性可以具有表示其域的广泛值范围。可以考虑如果将年龄和收入作为轴绘制,那么二维网格将有多大,其中年龄的每个可能值都在一个轴上创建了一个特定位置,同样,收入的每个可能值都在另一个轴上创建了一个特定位置。可以将网格保持在可管理的大小,可以改为将定量属性的区域划分为区间。这些... 阅读更多

我们如何挖掘封闭频繁项集?

Ginni
更新于 2022-02-16 11:30:57

1K+ 浏览量

在朴素方法中,可以挖掘频繁项集的完整集合,然后删除每个频繁项集,该项集是当前频繁项集的真子集,并给出与之相同的支持。此方法可以导出 2100−1 个频繁项集以获得长度为 100 的频繁项集,所有这些都在开始删除冗余项集之前。建议的技术是在挖掘阶段准确地搜索封闭频繁项集。这需要我们在挖掘过程中识别封闭项集的方法时修剪搜索空间。有各种修剪策略,包括以下内容:项目... 阅读更多

什么是 Apriori 算法?

Ginni
更新于 2022-02-16 11:26:46

1K+ 浏览量

Apriori 是 R. Agrawal 和 R. Srikant 于 1994 年开发的一种开创性算法,用于挖掘布尔关联规则的频繁项集。该算法依赖于算法需要先前了解频繁项集属性的情况。Apriori 使用称为逐层搜索的迭代方法,其中可以探索 k-项集 (k+1)-项集。首先,通过浏览数据库来汇集每个项目的计数来发现频繁 1-项集的集合,并接收满足最小支持的项目。结果集表示为 L1。接下来,L1 可以找到 L2,即频繁 2-项集的集合,它可以找到 L3,依此类推,直到不再... 阅读更多

频繁模式挖掘的标准是什么?

Ginni
更新于 2022-02-16 11:24:16

1K+ 浏览量

频繁模式挖掘有几个标准,如下所示:- 基于要挖掘的模式的完整性 - 它可以挖掘整个频繁项集的集合、闭合频繁项集和最大频繁项集,前提是给定一个最小支持阈值。它还可以提取受约束的频繁项集(它可以满足一组用户定义的约束)、近似频繁项集(它可以仅更改挖掘的频繁项集的近似支持计数)、近似匹配频繁项集(它可以计算相对匹配项集的支持计数)、前 k 个频繁项集(即用户指定的 k 个最频繁项集)... 阅读更多

广告