机器学习中偏差与方差的区别
算法无处不在,我们很多人都在使用它们,尽管我们可能甚至没有意识到其中一个参与了这个过程。我们需要一个算法来使用计算机解决问题。在将数据集转换为模型时,机器学习依赖于许多不同的技术。
在使用机器学习时,偏差和方差都是必须理解的重要组成部分。在任何机器学习算法中实现高精度时,深入理解这两个概念至关重要。
什么是机器学习中的偏差?
每个机器学习算法都存在预测误差,可以将其细分为三个子组件:偏差误差、方差误差和不可约误差。在机器学习过程中,错误的假设会导致偏差现象的发生。
偏差可能出现在机器学习模型中。当算法由于在机器学习过程中做出的某些不准确的假设而产生系统性偏差的结果时,这就是偏差的一个例子。
偏差类似于系统误差。它们是模型为了简化学习目标函数的过程而做出的假设。
高偏差表示训练数据和测试数据的误差都更大。为了避免欠拟合的问题,通常建议算法具有最小偏差以最大化精度。
让我们假设您选择了一个模型,它甚至无法从数据集中推导出基本模式;这就是我们所说的欠拟合。当您将算法应用于问题并发现它不适合时,您就会遇到可能被描述为偏差的情况。
高偏差模型具有以下特征:
- 未能收集正确的数趋势。
- 可能出现不正确的拟合。
- 过于泛化和简化。
- 高频错误。
什么是机器学习中的方差?
机器学习模型预测在训练数据和测试数据之间的准确性差异称为方差。当模型性能的变化是由数据集的变化引起的时,我们称之为方差误差。
方差指的是如果使用不同的训练数据集,目标函数估计将发生变化的幅度。由于机器学习算法从训练数据中推断目标函数,因此可以合理地预期该方法会表现出一定程度的变异性。
方差依赖于单个训练集,它是决定使用不同训练集进行预测的一致性的因素。
方差低表明,当训练数据集改变时,目标函数的估计值只会发生轻微变化。
方差高表明,当训练数据集改变时,目标函数的估计值将发生显著变化。
训练数据的细节会严重影响具有高方差的机器学习算法的性能。
高方差模型具有以下特征:
- 数据集中存在噪声。
- 存在过拟合的可能性。
- 复杂的模型。
- 努力使所有数据点尽可能接近。
机器学习中偏差与方差的区别
下表重点介绍了机器学习中偏差和方差的主要区别:
比较依据 | 偏差 | 方差 |
---|---|---|
定义 | 当在机器学习模型中使用算法并且它不适合时,就会出现偏差现象。偏差出现在多种情况下。 | 术语“方差”指的是使用多个训练数据集可能导致的目标函数估计值的改变程度。 |
值 | 预测值与实际观察值之间的差异称为偏差。 | 随机变量的方差是衡量它与其预测值的偏离程度。 |
数据 | 模型无法找到其训练数据集中的模式,并为已见和未见数据产生不准确的结果。 | 模型识别数据集中的大部分模式,甚至可以从噪声或与其操作无关的数据中学习。 |
结论
无论您使用什么模型,您都希望确保它在偏差量和方差量之间取得良好的平衡。
任何监督式机器学习算法都应努力实现低偏差和低方差作为其主要目标。然而,这种情况由于两个原因而不可行:首先,偏差和方差相互负相关;其次,机器学习模型同时具有低偏差和低方差的情况极不可能发生。
与偏差相反,方差描述了模型解释数据变化以及噪声的情况。如果您尝试更改算法使其更适合特定数据集,它最终可能具有低偏差,但方差会增加。