数据挖掘中的估计方法有哪些?
十倍交叉验证是测量学习方案在特定数据集上错误率的标准方法;为了获得可靠的结果,需要进行10次十倍交叉验证。另外还有两种方法:留一法交叉验证和自助法。
留一法交叉验证
留一法交叉验证是一种特殊的n倍交叉验证,其中n是数据集中实例的数量。依次将每个实例留出,并在所有剩余实例上训练学习方案。通过其在剩余实例上的正确性来计算——成功或失败分别为一或零。对数据集的每个组进行n次判断的结果取平均值,该平均值定义最终的错误估计。
此过程有两个有趣的方面。首先,在每种情况下,都可以使用尽可能多的记录进行训练,这大概会提高分类器真实性的概率。
其次,该过程是确定性的——不涉及随机抽样。无需重复10次,甚至根本无需重复。每次都会获得相同的结果。但是,缺点是计算成本很高,因为整个学习阶段需要执行n次,对于大型数据集通常是不可行的。
自助法
我们描述的第二种估计方法,自助法,是基于带放回抽样的统计过程。以前,每当从数据集中抽取样本以形成训练集或测试集时,都是不放回抽样。
大多数学习方案可以使用相同的实例两次,如果某个实例在训练集中出现两次,则会影响学习结果。自助法的思想是从数据集中进行带放回抽样以形成训练集。我们将描述一种特殊的变体,神秘地(但出于很快就会明朗的原因)称为0.632自助法。
为此,对包含n个实例的数据集进行n次带放回抽样,以提供一个不同的包含n个实例的数据集。由于这个第二个数据集中的一些元素(几乎可以肯定)会被重复,因此原始数据集中必须有一些实例没有被选中——我们将这些用作测试实例。
通过在训练集上训练学习系统并在测试集上计算其错误率获得的数值将是对真实错误率的悲观估计,因为训练集虽然大小为n,但仍然只包含63%的实例,与十倍交叉验证中使用的90%相比,这不算很多。
广告