什么是偏差-方差分解?
可以通过一种称为偏差-方差分解的理论工具来检查合并多个假设的效果。假设可以拥有无限数量的相似大小的独立训练集,并使用它们来创建无限数量的分类器。
所有分类器都处理测试实例,并且通过多数投票来决定单个答案。在这种情况下,由于没有学习设计是完美的,因此会出现错误。错误率将基于机器学习方法与当前问题的匹配程度,并且记录中也存在噪声的影响,这可能无法被学习。
假设预期错误率是通过对无限数量的独立选择的测试示例上组合分类器的错误进行平均计算得出的。特定学习算法的错误率称为其针对学习问题的偏差,并计算学习方法与问题的匹配程度。
它计算学习算法的“持久性”错误,即使考虑无限数量的训练组,也无法消除这种错误。在实际情况下,它无法精确计算;只能近似计算。
学习模型中的第二个错误来源来自使用的特定训练集,该训练集必然是有限的,因此不能完全代表实例的真实总体。
该误差元素在所有可能的给定大小的训练组和所有可能的测试集上的期望值称为该问题学习方法的方差。分类器的完整预期错误是由偏差和方差的总和构成——这就是偏差-方差分解。
在依赖于平方误差的数学预测的背景下学习了偏差-方差分解,其中存在一种广泛接受的实现方法。但是,对于分类来说,情况并不明确,并且已经提出了各种竞争性分解方法。
Bagging尝试通过使用给定的训练集模拟前面定义的阶段来消除学习方法的不稳定性。不是每次都采样新的独立训练数据集,而是通过删除一些实例并复制其他实例来修改初始训练数据。从初始数据集中随机抽取(有放回)实例以创建一个相同大小的新数据集。此采样过程不可避免地会复制一些实例并删除其他实例。
通过重采样创建的数据集彼此不同,但它们不是独立的,因为它们都是基于一个数据集建立的。然而,事实证明,Bagging 创建了一个组合模型,该模型的性能明显优于从初始训练数据构建的单个模型,并且绝不会本质上更差。