找到 413 篇文章 关于数据挖掘

什么是RIPPER算法?

Ginni
更新于 2022年2月11日 12:01:17

1K+ 次浏览

这是一种广泛使用的称为 RIPPER 的规则归纳算法。该算法几乎可以线性地扩展到多个训练实例,尤其适用于从具有过载类分布的数据集中构建模型。RIPPER 还适用于噪声数据集,因为它使用验证集来防止模型过拟合。RIPPER 选择多数类作为其默认类,并理解识别少数类的规则。对于多类问题,类按其频率排序。令 (y1 y2...yc) 为有序类,其中 y1 是频率最低的类,yc 是频率最高的类。在…… 阅读更多

评估分类器性能的方法是什么?

Ginni
更新于 2022年2月11日 11:58:57

3K+ 次浏览

在训练期间,有多种方法可以估计模型的泛化误差。估计的误差支持学习算法进行模型选择;即,发现一个不受过拟合影响的具有正确复杂度的模型。因为模型已经构建完成,它可以用于测试集来预测以前未见数据的类标签。衡量模型在测试集上的性能通常很有用,因为这种衡量方法提供了对其泛化误差的无偏估计。从测试集中评估的准确率或错误率可以…… 阅读更多

决策树归纳的特征是什么?

Ginni
更新于 2022年2月11日 11:56:45

2K+ 次浏览

决策树归纳具有以下多种特征:决策树归纳是一种构建分类模型的非参数方法。换句话说,它不需要关于类和不同属性满足的概率分布类型的任何先前假设。找到最优决策树是一个 NP 完全问题。许多决策树算法采用基于启发式的方法来指导它们在巨大的假设空间中的搜索。已经开发出各种技术来构建计算成本低的决策树,即使训练集大小非常大,也可以快速构建模型…… 阅读更多

表达属性测试条件的方法有哪些?

Ginni
更新于 2022年2月11日 11:55:18

4K+ 次浏览

决策树归纳是从带类标签的训练元组中学习决策树。决策树是一种类似流程图的树状结构,其中每个内部节点(非叶节点)表示对属性的测试,每个分支定义测试的结果,每个叶节点(或终端节点)表示一个类标签。树中最大的节点是根节点。决策树归纳生成一个类似流程图的结构,其中每个内部(非叶)节点表示对属性的测试,每个分支对应于测试的结果,每个外部(叶)节点表示类预测。在每个节点上…… 阅读更多

什么是变量变换?

Ginni
更新于 2022年2月11日 11:50:41

4K+ 次浏览

变量变换定义了一种用于变量某些值的变换。换句话说,对于每个对象,该变换都用于该对象的变量值。例如,如果只需要变量的幅度,则可以通过取绝对值来变换变量的值。变量变换有两种类型:简单的函数变换和归一化。简单函数使用简单的数学函数独立地作用于每个值。如果 r 是一个变量,则此类变换的示例包括 xk、logx、ex、$\sqrt{x}$、$\frac{1}{x}$、sinx 或 |x|。在…… 阅读更多

数据挖掘模型的类型有哪些?

Ginni
更新于 2022年2月11日 11:47:44

897 次浏览

数据挖掘是从存储在存储库中的海量数据中提取有用的新相关性、模式和趋势的过程,使用包括统计和数学技术在内的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者来说既合乎逻辑又有帮助的新颖方式总结记录。数据挖掘技术可用于为三种类型的任务创建三种类型的模型,例如描述性分析、定向分析和预测。描述性分析描述性模型定义了记录中的内容。输出是多个…… 阅读更多

什么是假设检验?

Ginni
更新于 2022年2月11日 11:44:00

408 次浏览

假设检验是将数据集成到公司决策过程中的最简单方法。假设检验的目的是证实或反驳预先设想的想法,它是几乎所有数据挖掘工作的一部分。数据挖掘人员在方法之间来回切换,首先为观察到的行为想出可能的描述,并让这些假设决定要计算的数据。假设检验是科学家和统计学家传统上终生都在做的事情。假设是一种提出的解释,其有效性可以通过分析数据来检验。此类信息很容易通过观察收集或通过实验创建,…… 阅读更多

数据挖掘中的单属性评估器是什么?

Ginni
更新于 2022年2月11日 11:40:49

132 次浏览

在单属性评估器中,它可以与 Ranker 搜索方法一起使用,以创建一个排名列表,Ranker 从中丢弃给定数量。它也用于 RankSearch 方法中。Relief 属性评估是基于实例的——它随机抽取实例并检查相同和多个类的相邻实例。它适用于离散和连续类数据。参数定义要抽取的多个实例,要检查的各种邻居,是否按距离对邻居加权,以及执行距离加权如何随距离呈指数衰减的指数函数。InfoGain 属性评估——它通过计算其信息增益来计算属性…… 阅读更多

什么是 Weka 数据挖掘?

Ginni
更新于 2022年2月11日 11:38:49

522 次浏览

Weka 是一套用于数据挖掘服务的机器学习算法。这些算法可以直接用于数据集或从您自己的 Java 程序中使用。它包括用于数据预处理、分类、回归、聚类、关联规则和可视化的工具。它也适用于生成新的机器学习方案。使用 Weka 的一种方法是将学习方法应用于数据集并分析其输出以了解更多关于记录的信息。第二种方法是需要学习的模型来对新实例进行预测。第三种方法是使用多个学习器并比较它们的性能以选择一个…… 阅读更多

什么是偏差-方差分解?

Ginni
更新于 2022年2月11日 11:35:12

261 次浏览

可以通过一种名为偏差-方差分解的理论工具来检查合并多个假设的效果。假设可以拥有无限数量的相似大小的独立训练集,并用它们创建无限数量的分类器。所有分类器都会处理测试实例,最终答案由多数投票决定。在这种情况下,由于没有完美的学习设计,所以会出现错误。错误率将取决于机器学习方法与当前问题的匹配程度,并且还会受到记录中噪声的影响,这无法……阅读更多

广告