887 次浏览
异常值是指与其余对象本质上存在差异的数据对象,就好像是由不同的机制产生的。对于演示的内容,可以将不是异常值的数据对象定义为“正常”或预期数据。通常,可以将异常值定义为“异常”数据。异常值是无法组合到给定类别或聚类中的数据组件。这些是与不同数据对象的通常行为存在多种行为的数据对象。这种类型的数据分析对于挖掘知识可能非常重要。异常值之所以引人注目,是因为它们是 ... 阅读更多
739 次浏览
如果一个属性具有关联的小(有限)数量的可能值,则该属性是离散的,而连续属性被视为具有大量可能值(无限)。换句话说,离散数据属性可以被视为其范围是有限组的函数,而连续数据属性是其范围是无限完全有序组(通常是区间)的函数。离散化的目的是通过将它们划分为几个区间来减少连续属性可能取的值的数量。离散化问题有两种方法。一种是对每个属性进行量化 ... 阅读更多
95 次浏览
泛化示例是实例区域的矩形范围,称为超矩形,因为它们是高维的。在定义新实例时,必须转换距离函数以能够计算到超矩形的距离。当正确定义新示例时,通过将其直接与同一类别的最近示例合并来对其进行泛化。最近的示例可以是单个实例或超矩形。在这种方法中,会生成一个覆盖先前实例和新实例的新超矩形。超矩形会扩展到包围新实例。最后,如果预测错误 ... 阅读更多
7K+ 次浏览
径向基函数 (RBF) 网络是一种流行的前馈网络类型。它有两个层,不包括输入层,并且与多层感知器在隐藏单元执行计算的方法上形成对比。每个隐藏单元基本上定义了输入空间中的一个特定点,以及它对于给定实例的输出或激活,该输出或激活基于其点与实例之间的距离,该实例只是一个不同的点。这两个点越接近,激活就越好。这是通过利用非线性变换函数将距离修改为相似性度量来实现的。钟形高斯 ... 阅读更多
569 次浏览
十折交叉验证是测量特定数据集上学习方案错误率的标准方法;为了获得可靠的结果,需要进行 10 次十折交叉验证。有两种方法:留一交叉验证和自助法。留一交叉验证留一交叉验证是公开的 n 折交叉验证,其中 n 是数据集中实例的数量。每个实例依次被排除在外,学习方案在所有剩余实例上进行训练。它是根据其在剩余实例上的正确性来计算的——根据成功或失败分别为 1 或 0。数据集的每个组对应一个判断,所有 n 个判断的结果取平均值, ... 阅读更多
2K+ 次浏览
决策树是一种类似流程图的树结构,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,叶节点表示类别或类别分布。树中最大的节点是根节点。构建决策树的问题可以递归地定义。首先,选择一个属性放在根节点,并为每个可能的值创建一个分支。这将示例集划分为子集,每个属性值对应一个子集。该过程可以对每个分支递归地重复,仅使用这些实例 ... 阅读更多
881 次浏览
最简单的学习结构是简单的记忆或死记硬背。因为一组训练实例已被记住,所以当遇到新实例时,会检查存储器中与新实例最相似地训练实例。唯一的问题是如何阐明相似。首先,这是一种完全不同的描述从一组实例中提取的“知识”的方法——它存储实例本身,并通过将类未知的新实例与类已知的当前实例关联来工作。与其尝试制定规则,不如直接从实例本身工作。 ... 阅读更多
258 次浏览
判别分析方法依赖于两个主要假设来出现分类分数——首先,它认为某些类别中的预测变量测量值来自多元正态分布。当此假设合理地组装时,判别分析是一种比其他分类方法(包括逻辑回归)更强大的工具。结果表明,如果数据是多元正态的,则判别分析比逻辑回归有效 30%,它需要少 30% 的记录才能达到相同的结果。已经表明,这种方法对偏离正态性的抵抗力相对较强,因为预测变量可以是非正态的 ... 阅读更多
236 次浏览
K 最近邻算法是一种分类方法,它不假设类成员资格 (Y) 和预测变量 X1、X2、…、Xn 之间的关系结构。这是一种非参数方法,因为它不包含对假定函数形式(包括线性回归中假定的线性形式)中的参数的估计。此方法从数据集中数据的预测变量值之间的相似性中提取数据。K-NN 方法的优点是其完整性和对参数假设的需求。在存在大型训练集的情况下,这些方法表现得特别好,当每个 ... 阅读更多
400 次浏览
K近邻算法是一种分类方法,它不假设类别成员(Y)和预测变量X1、X2、…、Xn之间关系的结构。这是一种非参数方法,因为它不包括在假定的函数形式(包括线性回归中假定的线性形式)中估计参数。这种方法从数据集中数据预测变量值的相似性中提取数据。K近邻方法的概念是识别训练数据集中与需要分类的新数据相同的k条记录。它可以... 阅读更多