3K+ 次浏览
数据挖掘是从存储在存储库中的大量数据中提取有用的新关联、模式和趋势的过程,它使用模式识别技术,包括统计和数学技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者来说既合乎逻辑又有帮助的新方法总结记录。数据挖掘是一个跨学科领域,汇集了一组学科,例如数据库系统、统计学、机器学习、可视化和数据科学。它取决于所使用的数据挖掘方法,其他学科的技术可能…… 阅读更多
375 次浏览
MBR 有以下几个要素:选择训练集——训练集包含 49,652 条新闻报道,由新闻检索服务为此目的提供支持。这些报道来自大约三个月的新闻,以及近 100 个不同的来源。每篇报道平均包含 2,700 个单词,并为此创建了八个代码。训练集不是专门创建的,因此训练集中代码的频率差异很大,这模仿了新闻报道中代码的总体频率。选择距离函数——下一阶段是…… 阅读更多
489 次浏览
进化算法是一种基于进化 AI 的计算机软件,它通过模拟生物行为的过程来解决问题。因此,它需要通常与生物进化相关的机制,包括繁殖、突变和重组。进化技术提供的 ETL-EXTRACT 工具套件就是一个数据提取和转换工具的例子。提取是在数据仓库环境中进一步帮助从源系统提取信息的服务。它是 ETL 过程的第一步。提取后,可以更改此数据并将其加载到数据仓库中。数据提取过程包括…… 阅读更多
1K+ 次浏览
人类根据从先前识别合适的例子中获得的能力,从经验中推理的能力。诊断感染的医生、标记欺诈性保险财产的索赔分析师和指着羊肚菌的蘑菇猎人都遵循相同的程序。每个人首先从经验中识别相同的案例,然后将他们对这些方法的知识应用于手头的问题。这就是基于记忆的推理的重要性。搜索已知数据的数据库以发现与新数据相同的预分类记录。这些邻居用于分类和计算。基于记忆的推理有各种应用,例如…… 阅读更多
神经网络是一系列算法,它试图通过模拟人脑工作方式的过程来识别一组数据中的基本关系。在这种方法中,神经网络表示神经元系统,例如有机或人工神经元系统。神经网络是根据认知系统中学习的(假设)过程和大脑的神经服务建模的分析方法,并且能够在执行所谓的从当前信息学习的过程之后,根据其他观察结果预测新的观察结果(关于确定的变量)。反向传播有以下步骤:…… 阅读更多
9K+ 次浏览
前馈神经网络只允许信号单向传播,从输入到输出。没有反馈(循环),例如某些层的输出不会影响同一层。前馈网络倾向于将输入与输出关联的简单网络。它可用于模式识别。这种类型的组织表示为自下而上或自上而下。隐藏层中的每个单元通常与输入层中的某些单元完全连接。因为这个网络包含标准单元,所以隐藏层中的单元通过将每个输入的值乘以…… 阅读更多
339 次浏览
C5 是澳大利亚研究员 J. Ross Quinlan 多年来一直在开发和改进的决策树算法的最新版本。之前的版本 ID3(成立于 1986 年)在机器学习领域具有影响力,其后续版本被用于多种商业数据挖掘服务。C5 生成的树与 CART 生成的树相同。与 CART 一样,C5 算法首先生成一个过度拟合的树,然后将其剪枝以创建更稳健的模型。剪枝方法很复杂,但 C5 不使用验证集来选择…… 阅读更多
825 次浏览
CART 是一种著名的决策树算法,由 Leo Breiman、Jerome Friedman、Richard Olshen 和 Charles Stone 于 1984 年首次提出。CART 代表分类和回归树。CART 算法生成二叉树,并继续划分,只要可以找到改进纯度的新的划分。有一些更简单的子树,每个子树定义了模型复杂性和训练组误分类率之间不同的权衡。CART 算法识别出一组这样的子树作为候选模型。这些候选子树被应用于验证集,误分类率最低的树被选为最终…… 阅读更多
2K+ 次浏览
回归定义了一种类型的监督机器学习方法,可用于预测任何连续值属性。回归为企业提供了一种探索目标变量和预测变量之间关系的方法。它是探索数据的重要工具,可用于财务预测和时间序列建模。有各种类型的回归,如下所示:线性回归——线性回归包括找到拟合两个属性(或变量)的“最佳”线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的扩展,其中…… 阅读更多
400 次浏览
回归定义了一种类型的监督机器学习方法,可用于预测任何连续值属性。回归为企业提供了一种探索目标变量和预测变量之间关系的方法。它是探索数据的重要工具,可用于财务预测和时间序列建模。可以通过将数据拟合到函数(例如回归)来平滑数据。线性回归包括找到拟合两个属性(或变量)的“最佳”线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的扩展,其中…… 阅读更多