224 次浏览
数据挖掘也被称为数据知识发现,是一种识别数百万数据(尤其是结构化数据)之间任何异常、相关性、趋势或模式的技术,以获取对业务决策有用的见解,这些见解可能在传统分析中被忽略。数据挖掘的目的是使用复杂的数值算法查找以前被忽略或未知的事实或数据。数据挖掘类似于数据科学。它由一个人在特定情况下,针对特定数据集,以特定目标进行。此阶段包含几种类型的服务 ... 阅读更多
627 次浏览
距离是 MBR 计算相似性的方法。对于某些真实的距离度量,从点 A 到点 B 的距离,用 d(A, B) 表示,具有以下四个特征 -定义明确 - 两点之间的距离始终定义,并且是非负实数,d (A, B) ≥ 0。同一性 - 从一个点到它自身的距离始终为零,因此 d (A, A) = 0。交换律 - 方向不会产生差异,因此从 A 到 B 的距离与从 B 到 A 的距离相同:d(A, B) = d(B, A)。这 ... 阅读更多
3K+ 次浏览
数据挖掘是通过传输存储在存储库中的大量数据来查找有用的新相关性、模式和趋势的过程,使用包括统计和数学技术的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者来说既合乎逻辑又有帮助的新颖方式汇总记录。数据挖掘是一个跨学科领域,是一组学科的集合,例如数据库系统、统计学、机器学习、可视化和数据科学。它取决于所使用的数据挖掘方法,来自其他学科的技术可能 ... 阅读更多
375 次浏览
MBR 有各种元素,如下所示 -选择训练集 - 训练集包含 49,652 个新闻故事,由新闻检索服务支持以实现此目标。这些故事来自大约三个月的新闻,并且来自将近 100 个多个来源。每个故事平均包含 2,700 个单词,并为此创建了 8 个代码。训练集不是专门创建的,因此训练集中代码的频率差异很大,模仿了新闻故事中代码的完整频率。选择距离函数 - 下一阶段是 ... 阅读更多
489 次浏览
进化算法是基于进化 AI 的计算机软件,它通过采用模仿生物行为的过程来解决问题。因此,它需要通常与生物进化相关的机制,包括繁殖、突变和重组。数据提取和转换工具的一个示例是来自进化技术的 ETL-EXTRACT 工具套件。提取是从源系统提取信息以在数据仓库环境中提供额外帮助的服务。它是 ETL 过程的第一步。提取后,可以更改此数据并将其加载到数据仓库中。数据提取过程包含 ... 阅读更多
1K+ 次浏览
人类根据识别先前合适示例的能力从经验中推理的能力。医生诊断感染、索赔分析师标记欺诈性保险财产以及蘑菇猎人指出羊肚菌都遵循相同的程序。每个人首先从经验中识别相同的情况,然后将他们对这些方法的了解应用于手头的问题。这就是基于记忆推理的重要性。搜索已知数据的数据库以发现与新数据相同的预分类记录。这些邻居用于分类和计算。基于记忆推理有各种应用,例如 ... 阅读更多
神经网络是一系列算法,这些算法试图通过模仿人脑工作方式的过程来识别一组数据中的基本关系。在这种方法中,神经网络表示神经元系统,例如有机或人工神经元系统。神经网络是根据认知系统中学习的(假设的)过程和大脑的神经服务建模的分析方法,并且能够在执行所谓的学习过程后从其他观察结果预测新的观察结果(关于确定变量)来自当前信息。反向传播有以下步骤 - ... 阅读更多
9K+ 次浏览
前馈神经网络只允许信号单向传播,从输入到输出。没有反馈(循环),例如某些层的输出不会影响同一层。前馈网络往往是简单的网络,将输入与输出关联起来。它可以用于模式识别。这种类型的组织表示为自下而上或自上而下。隐藏层中的每个单元通常完全连接到输入层中的某些单元。因为这个网络包含标准单元,所以隐藏层中的单元通过将每个输入的值乘以 ... 阅读更多
339 次浏览
C5 是澳大利亚研究员 J. Ross Quinlan 多年来一直在开发和改进的决策树算法的当前版本。早期版本 ID3 于 1986 年创建,在机器学习领域很有影响力,其后续版本用于多种商业数据挖掘服务。C5 生成的树与 CART 生成的树相同。与 CART 一样,C5 算法首先生成一个过度拟合的树,然后将其修剪回以创建更强大的模型。修剪方法很复杂,但 C5 不使用验证集在 ... 阅读更多
825 次浏览
CART 是一种著名的决策树算法,由 Leo Breiman、Jerome Friedman、Richard Olshen 和 Charles Stone 于 1984 年首次提出。CART 代表分类和回归树。CART 算法生成二叉树,并继续分裂,考虑到可以找到改进纯度的新的分裂。有一些更简单的子树,每个子树定义了模型复杂度和训练组错误分类率之间的不同权衡。CART 算法识别出一组这样的子树作为候选模型。这些候选子树用于验证组,并且具有最小验证集错误分类率的树被选择作为最终 ... 阅读更多