739 次浏览
如果一个属性的可能取值数量较少(有限),则该属性是离散的;而连续属性则被认为具有大量的可能取值(无限)。换句话说,离散数据属性可以看作是一个范围为有限群的函数,而连续数据属性是一个范围为无限完全有序群(通常是一个区间)的函数。离散化的目的是通过将连续属性划分为若干区间来减少其可能取值的个数。解决离散化问题有两种方法。一种是对每个属性进行量化……阅读更多
95 次浏览
泛化样本是实例区域的矩形范围,称为超矩形,因为它们是高维的。在定义新实例时,必须转换距离函数以计算到超矩形的距离。当正确定义一个新样本时,通过将其与同一类中最接近的样本直接合并来泛化它。最近的样本可以是单个实例或超矩形。在这种方法中,会生成一个新的超矩形来覆盖之前的实例和新的实例。超矩形会扩展到包围新的实例。最后,如果预测是错误的……阅读更多
7K+ 次浏览
径向基函数 (RBF) 网络是一种流行的前馈网络类型。它有两层(不包括输入层),并且在隐藏单元执行计算的方法上与多层感知器形成对比。每个隐藏单元都显著地定义了输入空间中的一个特定点,以及其针对给定实例的输出或激活,该输出或激活基于其点与实例(这只是一个不同的点)之间的距离。这两个点越接近,激活就越好。这是通过利用非线性变换函数将距离修改为相似性度量来实现的。一个钟形高斯……阅读更多
569 次浏览
十倍交叉验证是测量特定数据集上学习方案错误率的标准方法;为了获得可靠的结果,需要进行 10 次十倍交叉验证。还有两种方法是留一交叉验证和自举法。留一交叉验证留一交叉验证是公开的 n 折交叉验证,其中 n 是数据集中实例的个数。依次留下每个实例,并在所有剩余实例上训练学习方案。它通过其对剩余实例的正确性来计算——根据成功或失败分别为一或零。对数据集的每个组进行的所有 n 次判断的结果取平均值……阅读更多
2K+ 次浏览
决策树是一种类似流程图的树形机制,其中每个内部节点表示对属性的测试,每个分支定义测试的结果,叶节点描述类或类分布。树中最大的节点是根节点。构建决策树的问题可以递归地定义。首先,选择一个要放在根节点的属性,并为每个可能的值创建一个分支。这将示例集划分为子集,每个子集对应于属性的一个值。该过程可以对每个分支递归地重复,只使用那些……阅读更多
881 次浏览
最简单的学习结构是简单的记忆或死记硬背。因为一组训练实例已被记住,所以在遇到新实例时,会检查内存中与新实例最相似的训练实例。唯一的问题是如何解释相似。首先,这是一种完全不同的描述从一组实例中提取的“知识”的方法——它存储实例本身,并通过将类未知的新实例与类已知的当前实例关联来工作。与其试图制定规则,不如直接从实例本身入手……阅读更多
258 次浏览
判别分析方法依赖于两个主要假设来获得分类分数——首先,它认为某些类别的预测器测量值来自多元正态分布。当这个假设合理地成立时,判别分析比其他分类方法(包括逻辑回归)更有效。结果表明,如果数据是多元正态的,判别分析比逻辑回归有效 30%,它只需要 30% 的记录就能达到相同的结果。已经表明,这种方法对于偏离正态性来说相对稳健,因为预测器可以是非正态的……阅读更多
236 次浏览
k-近邻算法是一种分类方法,它不假设类成员 (Y) 和预测器 X1、X2……Xn 之间关系的结构。这是一种非参数方法,因为它不包含对假定函数形式(包括线性回归中假定的线性形式)中参数的估计。这种方法从数据集中数据的预测器值之间的相似性中提取数据。k-NN 方法的优点是其完整性和对参数假设的需求。在存在大型训练集的情况下,当每个……阅读更多
400 次浏览
k-近邻算法是一种分类方法,它不假设类成员 (Y) 和预测器 X1、X2……Xn 之间关系的结构。这是一种非参数方法,因为它不包括对假定函数形式(包括线性回归中假定的线性形式)中参数的估计。这种方法从数据集中数据的预测器值之间的相似性中提取数据。k-近邻方法中的概念是在训练数据集中识别 k 条与需要分类的新数据相同的记录。它可以……阅读更多
252 次浏览
数据挖掘中一个常见的问题是:当可以使用多个变量作为预测变量时,如何利用回归方程预测因变量的值。另一个考虑因素是倾向于包含大量变量,希望能够发现以前隐藏的关系。例如,一家公司发现,购买了椅子和桌子腿防磨保护套的客户信用风险较低。在将所有可能的变量都放入模型之前,需要谨慎考虑几个原因。设置完整的预测变量集可能代价很高或不可行……阅读更多