3K+ 次浏览
数据挖掘是从存储在资源库中的大量数据中提取有用的新关联、模式和趋势的过程,它使用包括统计和数学技术在内的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者来说既合乎逻辑又有帮助的新方法总结记录。数据挖掘是一个跨学科领域,它汇集了一组学科,例如数据库系统、统计学、机器学习、可视化和数据科学。它取决于所使用的数据挖掘方法,其他学科的技术可能……阅读更多
375次浏览
MBR有以下几个要素:选择训练集——训练集包括49652篇新闻报道,由新闻检索服务支持。这些报道来自大约三个月的新闻,以及近100个不同的来源。每篇报道平均包含2700个单词,并为此创建了八个代码。训练集并非特别创建,因此训练集中代码的频率差异很大,这反映了新闻报道中代码的整体频率。选择距离函数——下一步是……阅读更多
489次浏览
进化算法是一种基于进化AI的计算机软件,它通过使用模拟生物行为的过程来解决问题。因此,它需要一些通常与生物进化相关的机制,包括繁殖、突变和重组。进化技术提供的ETL-EXTRACT工具套件就是一个数据提取和转换工具的例子。提取是在数据仓库环境中为了额外帮助从源系统提取信息的服务。它是ETL过程的第一步。提取后,这些数据可以被更改并加载到数据仓库中。数据提取过程包括……阅读更多
1K+ 次浏览
人类能够根据从过去识别合适的例子来进行基于经验的推理。医生诊断感染、理赔分析师标记欺诈性保险财产以及蘑菇猎人指出羊肚菌都在遵循同样的程序。首先识别经验中的相似案例,然后将他们对这些方法的知识应用于手头的问题。这就是基于记忆的推理的重要性。搜索已知数据的数据库以发现与新数据相同的预分类记录。这些邻居用于分类和计算。基于记忆的推理有各种各样的应用,例如……阅读更多
神经网络是一系列算法,它试图通过模拟人脑工作方式的过程来识别一组数据中的基本关系。在这种方法中,神经网络代表神经元系统,例如有机或人工神经元系统。神经网络是根据认知系统中的学习过程和大脑的神经服务而建模的分析方法,并且能够在执行所谓的从现有信息中学习的过程之后,根据其他观察结果预测新的观察结果(关于特定变量)。反向传播有以下步骤:……阅读更多
9K+ 次浏览
前馈神经网络只允许信号单向传播,从输入到输出。没有反馈(循环),例如某一层输出不会影响同一层。前馈网络往往是简单的网络,它将输入与输出关联起来。它可以用于模式识别。这种类型的组织表示为自下而上或自上而下。隐藏层中的每个单元通常与输入层中的某些单元完全连接。因为这个网络包含标准单元,所以隐藏层中的单元通过将每个输入的值乘以……阅读更多
339次浏览
C5是澳大利亚研究员J. Ross Quinlan多年来一直在开发和改进的决策树算法的当前版本。之前的版本ID3(成立于1986年)在机器学习领域具有影响力,其后续版本被用于多种商业数据挖掘服务。C5增长的树与CART改进的树相同。与CART一样,C5算法首先改进一个过度拟合的树,然后将其修剪以创建更动态的模型。修剪方法很复杂,但C5不使用验证集来选择……阅读更多
825次浏览
CART是一种著名的决策树算法,由Leo Breiman、Jerome Friedman、Richard Olshen和Charles Stone于1984年首次提出。CART代表分类和回归树。CART算法改进二叉树,并继续划分,认为可以找到改进纯度的新的分割。有一些更简单的子树,每个子树都定义了模型复杂性和训练组误分类率之间的不同权衡。CART算法将一组这样的子树识别为候选模型。这些候选子树用于验证组,误分类率最低的树被选择为最终……阅读更多
2K+ 次浏览
回归定义了一种类型的监督机器学习方法,可用于预测任何连续值的属性。回归为一些商业组织提供了探索目标变量和预测变量关联的方法。它是探索可用于货币预测和时间序列建模的数据的重要工具。有各种类型的回归,如下所示:线性回归——线性回归包括找到拟合两个属性(或变量)的“最佳”线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的改进,其中……阅读更多
400次浏览
回归定义了一种类型的监督机器学习方法,可用于预测任何连续值的属性。回归为一些商业组织提供了探索目标变量和预测变量关联的方法。它是探索可用于货币预测和时间序列建模的数据的重要工具。可以通过将数据拟合到函数(例如回归)来平滑数据。线性回归包括找到拟合两个属性(或变量)的“最佳”线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的改进,其中……阅读更多