2K+ 次查看
决策树归纳具有多种特征,如下所示:决策树归纳是一种构建分类模型的非参数方法。换句话说,它不需要对类和不同属性满足的概率分布类型做出任何先验假设。找到最优决策树是一个 NP 完全问题。许多决策树算法采用基于启发式的方法来指导它们在巨大的假设空间中的搜索。已经开发出各种技术来构建计算代价低的决策树,即使训练集大小非常大,也能快速构建模型…… 阅读更多
4K+ 次查看
决策树归纳是从带有类标签的训练元组中学习决策树。决策树是一种类似流程图的树状结构,其中每个内部节点(非叶节点)表示对一个属性的测试,每条分支定义测试的结果,每个叶节点(或终端节点)表示一个类标签。树中最大的节点是根节点。决策树归纳生成类似流程图的结构,其中每个内部(非叶)节点表示对一个属性的测试,每条分支对应测试的结果,每个外部(叶)节点表示一个类预测。在每个节点上…… 阅读更多
变量变换定义了一个变换,用于变量的某些值。换句话说,对于每个对象,该变换都应用于该对象的变量值。例如,如果只需要变量的幅度,则可以通过取绝对值来改变变量的值。变量变换有两种类型:简单的函数变换和规范化。简单函数每个值都独立地应用一个简单的数学函数。如果 r 是一个变量,则此类变换的示例包括 xk、logx、ex、$\sqrt{x}$、$\frac{1}{x}$、sinx 或 |x|。在…… 阅读更多
897 次查看
数据挖掘是从存储在存储库中的大量数据中提取有用的新相关性、模式和趋势的过程,它使用包括统计和数学技术在内的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者来说既合乎逻辑又有所帮助的新颖方式总结记录。数据挖掘技术可用于为三种类型的任务创建三种类型的模型,例如描述性分析、定向分析和预测。描述性分析描述性模型定义了记录中的内容。输出是多个…… 阅读更多
408 次查看
假设检验是将数据整合到公司决策过程中的最简单方法。假设检验的目的是证实或证伪预先设想的想法,它是几乎所有数据挖掘工作的一部分。数据挖掘人员在方法之间来回切换,首先为观察到的行为想出可能的描述,并让这些假设决定要计算的数据。假设检验是科学家和统计学家传统上终生都在做的事情。假设是一种提出的解释,其有效性可以通过分析数据来检验。这些信息很容易通过观察收集或通过实验创建,…… 阅读更多
132 次查看
在单属性评估器中,它可以与 Ranker 搜索方法一起使用,以生成一个排名列表,Ranker 从中丢弃给定数量。它也用于 RankSearch 方法。Relief 属性评估是基于实例的 - 它随机抽取实例并检查相同和多个类的相邻实例。它适用于离散和连续类数据。参数定义要抽取的多个实例,要检查的各种邻居,是否要按距离加权邻居,以及一个指数函数,该函数控制权重随距离的增加而衰减的方式。InfoGain 属性评估 - 它通过计算其信息增益来计算属性…… 阅读更多
522 次查看
Weka 是一组用于数据挖掘服务的机器学习算法。这些算法可以直接应用于数据集或从您自己的 Java 程序中使用。它包括用于数据预处理、分类、回归、聚类、关联规则和可视化的工具。它也适用于生成新的机器学习方案。使用 Weka 的一种方法是将学习方法应用于数据集并分析其输出以了解有关记录的更多信息。第二种是需要学习模型来对新实例进行预测。第三种是使用多个学习器并比较它们的性能以选择一个…… 阅读更多
261 次查看
可以通过称为偏差-方差分解的理论装置来检查组合多个假设的效果。假设可以有无限数量的相同大小的单独训练集,并使用它们创建无限数量的分类器。所有分类器都处理一个测试实例,并通过多数投票决定单个答案。在这种情况下,错误会出现,因为没有学习设计是完美的。错误率将基于机器学习方法连接手头问题的程度,并且记录中还有噪声的影响,这无法…… 阅读更多
887 次查看
异常值是一个数据对象,它与其余对象本质上存在差异,仿佛是由不同的机制产生的。为了演示的目的,可以将不是异常值的数据对象定义为“正常”或预期数据。通常,可以将异常值定义为“异常”数据。异常值是不能组合到给定类或聚类中的数据组件。这些是其行为与不同数据对象的通常行为不同的数据对象。这种类型的数据分析对于挖掘知识可能很重要。异常值之所以引人注目,是因为它们是…… 阅读更多
739 次查看
如果一个属性具有关联的小(有限)数量的可能值,则该属性是离散的,而连续属性被认为具有大量(无限)的可能值。换句话说,离散数据属性可以被视为其范围为有限集合的函数,而连续数据属性是其范围为无限完全有序集合(通常是区间)的函数。离散化的目标是通过将连续属性划分为多个区间来减少连续属性可能取值的个数。解决离散化问题的方法有两种。一种是量化每个属性…… 阅读更多