627 次浏览
距离是 MBR 计算相似性的方法。对于某些真实的距离度量,从点 A 到点 B 的距离(用 d(A, B) 表示)具有四个特征,如下所示 -定义明确 - 两点之间的距离始终定义且为非负实数,d (A, B) ≥ 0。同一性 - 从一点到自身的距离始终为零,因此 d (A, A) = 0。交换律 - 方向不会产生差异,因此从 A 到 B 的距离与从 B 到 A 的距离相同:d(A, B) = d(B, A)。这 ... 阅读更多
3K+ 次浏览
数据挖掘是从存储在存储库中的大量数据中传输,使用模式识别技术(包括统计和数学技术)来查找有用的新相关性、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者既有逻辑又有帮助的新方法总结记录。数据挖掘是一个跨学科领域,是一组学科的集合,例如数据库系统、统计学、机器学习、可视化和数据科学。它取决于所使用的数据挖掘方法,其他学科的技术可能 ... 阅读更多
375 次浏览
MBR 有各种元素,如下所示 -选择训练集 - 训练集包含 49,652 条新闻报道,由新闻检索服务为此目的提供支持。这些故事大约来自三个月的新闻以及近 100 个多个来源。每个故事平均包含 2,700 个单词,并为此创建了 8 个代码。训练集不是特别创建的,因此训练集中代码的频率差异很大,模仿了新闻报道中代码的完整频率。选择距离函数 - 下一阶段是 ... 阅读更多
489 次浏览
进化算法是一种基于进化 AI 的计算机软件,它通过模拟生物行为来解决问题。因此,它需要通常与生物进化相关的机制,包括繁殖、突变和重组。数据提取和转换工具的一个示例是来自进化技术的 ETL-EXTRACT 工具套件。提取是从源系统提取信息以在数据仓库环境中进一步帮助的服务。它是 ETL 过程的第一步。提取后,可以更改此数据并将其加载到数据仓库中。数据提取过程包含 ... 阅读更多
1K+ 次浏览
人类根据识别先前合适示例的能力从经验中推理的能力。诊断感染的医生、标记欺诈性保险财产的索赔分析师和指着羊肚菌的蘑菇采集者遵循相同的程序。每个人首先从经验中识别相同的情况,然后将他们对这些方法的了解应用于手头的问题。这就是基于记忆的推理的重要性。搜索已知数据的数据库以发现与新数据相同的事先分类的记录。这些邻居用于分类和计算。基于记忆的推理有各种应用,例如 ... 阅读更多
神经网络是一系列算法,旨在通过模仿人脑工作方式的过程来识别一组数据中的基本关系。在这种方法中,神经网络表示神经元系统,例如有机或人工神经元系统。神经网络是根据认知系统中学习的(假设的)过程和大脑的神经服务建模的分析方法,并且能够在执行所谓的学习过程后从其他观察结果预测新观察结果(关于特定变量)来自当前信息。反向传播有以下步骤 -这 ... 阅读更多
9K+ 次浏览
前馈神经网络允许信号仅沿一个方向传播,从输入到输出。没有反馈(循环),例如某些层的输出不会影响同一层。前馈网络倾向于简单的网络,将输入与输出关联起来。它可用于模式识别。这种类型的组织表示为自下而上或自上而下。隐藏层中的每个单元通常完全连接到输入层中的某些单元。因为此网络包含标准单元,所以隐藏层中的单元通过将每个输入的值乘以 ... 阅读更多
339 次浏览
C5 是澳大利亚研究员 J. Ross Quinlan 多年来一直在开发和改进的决策树算法的当前版本。早期版本 ID3 于 1986 年创建,在机器学习领域具有影响力,其后续版本用于多种商业数据挖掘服务。C5 生成的树与 CART 生成的树相同。与 CART 一样,C5 算法首先生成一个过度拟合的树,然后对其进行剪枝以创建更稳健的模型。剪枝方法很复杂,但 C5 不会使用验证集来在 ... 阅读更多
825 次浏览
CART 是一种著名的决策树算法,由 Leo Breiman、Jerome Friedman、Richard Olshen 和 Charles Stone 于 1984 年首次提出。CART 代表分类和回归树。CART 算法生成二叉树并继续分裂,考虑到可以找到改进纯度的新的分裂。有一些更简单的子树,每个子树在模型复杂度和训练组错误分类率之间定义了不同的权衡。CART 算法识别出一组这样的子树作为候选模型。这些候选子树用于验证组,并且具有最小验证集错误分类率的树被选择作为最终 ... 阅读更多
2K+ 次浏览
回归定义了一种类型的监督机器学习方法,可用于预测任何连续值属性。回归为某些业务组织提供了探索目标变量和预测变量关联的方法。它是探索可用于财务预测和时间序列建模的数据的重要工具。有各种类型的回归,如下所示 -线性回归 - 线性回归包括找到适合两个属性(或变量)的“最佳”线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的扩展,其中超过 ... 阅读更多