找到 1861 篇文章 关于数据结构

决策树归纳的特征是什么?

Ginni
更新于 2022-02-11 11:56:45

2K+ 阅读量

决策树归纳有各种特征,如下所示:决策树归纳是一种用于构建分类模型的非参数方法。换句话说,它不需要关于类和不同属性所满足的概率分布类型的任何先验假设。找到最优决策树是一个 NP 完全问题。许多决策树算法采用基于启发式的方法来指导它们在巨大的假设空间中的搜索。已经开发出各种技术来构建计算成本低的决策树,从而即使在训练集大小非常大的情况下也能快速构建模型。 ... 阅读更多

表达属性测试条件的方法有哪些?

Ginni
更新于 2022-02-11 11:55:18

4K+ 阅读量

决策树归纳是从带类标签的训练元组中学习决策树。决策树是一种类似流程图的树状结构,其中每个内部节点(非叶子节点)表示对某个属性的测试,每个分支定义测试的结果,每个叶子节点(或终端节点)表示类标签。树中最大的节点是根节点。决策树归纳生成一个类似流程图的结构,其中每个内部(非叶子)节点表示对某个属性的测试,每个分支对应于测试的结果,每个外部(叶子)节点表示类预测。在每个节点,... 阅读更多

什么是变量变换?

Ginni
更新于 2022-02-11 11:50:41

4K+ 阅读量

变量变换定义了一种应用于变量某些值的变换。换句话说,对于每个对象,变换都应用于该对象的变量值。例如,如果仅变量的重要性是相关的,则可以通过取绝对值来改变变量的值。变量变换有两种类型:简单函数变换和归一化。简单函数每个值独立地应用一个简单的数学函数。如果 r 是一个变量,则此类变换的示例包括 xk、logx、ex、$\sqrt{x}$、$\frac{1}{x}$、sinx 或 |x|。在 ... 阅读更多

数据挖掘模型的类型有哪些?

Ginni
更新于 2022-02-11 11:47:44

897 阅读量

数据挖掘是通过传递存储在存储库中的大量数据来查找有用的新关联、模式和趋势的过程,使用模式识别技术,包括统计和数学技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者既有逻辑又有帮助的新颖方式总结记录。数据挖掘技术可用于为三种类型的任务创建三种模型,例如描述性分析、定向分析和预测。描述性分析描述性模型定义了记录中的内容。输出是多个 ... 阅读更多

什么是假设检验?

Ginni
更新于 2022-02-11 11:44:00

408 阅读量

假设检验是将数据整合到公司决策过程中的最简单方法。假设检验的目的是证实或反驳预先设想的想法,它是几乎所有数据挖掘工作的组成部分。数据挖掘人员在方法之间来回切换,首先为观察到的行为想出可能的描述,并让这些假设决定要计算的数据。假设检验是科学家和统计学家传统上终生都在做的事情。假设是一种提出的解释,其有效性可以通过分析数据来检验。此类信息可以很容易地通过观察收集或通过实验创建,... 阅读更多

数据挖掘中的单属性评估器是什么?

Ginni
更新于 2022-02-11 11:40:49

132 阅读量

在单属性评估器中,它可以与 Ranker 搜索方法一起使用,以创建排名列表,Ranker 从中丢弃给定数量。它也用于 RankSearch 方法中。Relief 属性评估是基于实例的 - 它随机抽取实例并检查相同和多个类的相邻实例。它适用于离散和连续类数据。参数定义要采样的多个实例、要检查的不同邻居、是否按距离对邻居加权以及一个指数函数,该函数控制权重如何随着距离的增加而衰减。InfoGain 属性评估 - 它通过计算其信息增益来计算属性 ... 阅读更多

什么是 Weka 数据挖掘?

Ginni
更新于 2022-02-11 11:38:49

522 阅读量

Weka 是一套用于数据挖掘服务的机器学习算法。这些算法可以直接用于数据集或从您自己的 Java 程序中使用。它包括用于数据预处理、分类、回归、聚类、关联规则和可视化的工具。它也适用于生成新的机器学习方案。使用 Weka 的一种方法是对数据集使用学习算法并分析其输出以了解有关记录的更多信息。第二种是需要学习的模型来对新实例进行预测。第三种是使用多个学习器并比较它们的性能以选择一个 ... 阅读更多

什么是偏差-方差分解?

Ginni
更新于 2022-02-11 11:35:12

261 阅读量

可以通过称为偏差-方差分解的理论工具来检查组合多个假设的效果。假设可以有无限多个大小相似的单独训练集,并使用它们创建无限多个分类器。测试实例由所有分类器处理,并且通过多数投票来确定单个答案。在这种情况下,会发生错误,因为没有学习设计是完美的。错误率将基于机器学习方法连接手头问题的程度,并且记录中也存在噪声的影响,这无法 ... 阅读更多

什么是异常值检测?

Ginni
更新于 2022-02-10 11:56:31

887 阅读量

异常值是一个数据对象,它与其余对象本质上存在差异,就好像它是由不同的机制产生的。为了演示的目的,可以将不属于异常值的数据对象定义为“正常”或预期数据。通常,可以将异常值定义为“异常”数据。异常值是不能组合到给定类或聚类中的数据组件。这些是其行为与不同数据对象的通常行为不同的数据对象。此类数据的分析对于挖掘知识可能很重要。异常值之所以引人注目,是因为它们是 ... 阅读更多

无监督离散化的方法有哪些?

Ginni
更新于 2022-02-10 11:54:18

739 阅读量

如果一个属性的可能取值数量较小(有限),则称其为离散属性;而连续属性则被视为具有大量可能的取值(无限)。换句话说,离散数据属性可以看作是一个范围为有限群的函数,而连续数据属性则是一个范围为无限完全有序群(通常是区间)的函数。离散化旨在通过将连续属性的取值划分为若干个区间来减少其可能的取值数量。离散化问题有两种方法。一种是对每个属性进行量化... 阅读更多

广告