什么是过拟合以及如何避免?
简介
在统计学中,“过拟合”指的是模型误差,它发生在函数与特定数据集关联过于紧密时。结果,过拟合可能无法拟合新数据,这可能会降低预测未来观察值的精度。
检查诸如准确性和损失之类的验证指标可能会显示过拟合。当模型受到过拟合的影响时,验证指标通常会增加到某个点,然后趋于平稳或开始下降。在上升趋势中,模型寻找良好的匹配,一旦找到,趋势就开始下降或停滞。
过拟合是模型的一个问题,当模型存在偏差因为它与数据集过于相关。
当模型过拟合时,它仅适用于其设计的数据集,而不适用于任何其他数据集。
集成、数据增强、数据简化和交叉验证是避免过拟合的一些技术。
如何检测过拟合?
在测试数据之前,几乎很难检测到过拟合。它可以帮助解决过拟合无法泛化数据集的能力,这是它的一个独特特征。因此,可以将数据分成几个子集以方便训练和测试。数据主要分为训练集和测试集两大类。
训练集约占总数据量的80%,也用于训练模型。测试集约占总数据集的20%,用于评估从未使用过的数据的正确性。我们可以评估模型对每条数据的性能来识别过拟合何时发生,并观察训练过程是如何通过分割数据集来工作的。
可以在两个数据集上观察到的准确性可以用来评估性能并确定是否存在过拟合。如果模型在训练集和测试集上的表现都很好,那么很明显模型是过拟合的。
如何防止过拟合?
使用更多数据进行训练
在训练中使用更多数据是避免过拟合的一种方法。在此设置下,算法可以更容易地识别模式并减少错误。随着用户添加更多训练数据,模型将无法对所有样本进行过拟合,迫使其进行泛化以产生结果。
用户应继续收集更多数据以提高模型的准确性。 用户应确保所使用的数据是准确和相关的,因为这种方法成本很高。
数据增强
数据增强比使用更多数据进行训练成本更低。 如果你无法继续收集新数据,你可以通过使用已有的数据集来实现多样化。
每次模型处理数据样本时,数据增强都会导致样本外观发生细微变化。该方法阻止模型学习数据集的属性,同时使每个数据集看起来对模型都是唯一的。
向输入和输出数据添加噪声是另一种类似于数据增强的技术。向输出添加噪声会导致更多样化的数据,而向输入添加噪声则使模型更稳定,而不会影响数据质量或隐私。但是,应谨慎使用噪声添加,以免噪声量过多地影响数据的准确性或一致性。
数据简化
当模型即使访问大量数据也能成功地对训练数据集进行过拟合时,模型的复杂性会导致过拟合。数据简化技术降低了模型的复杂性,使模型足够简单以防止过拟合。
修剪决策树、减少神经网络中的参数数量以及在中性网络上应用 dropout 是可以实施的一些示例活动。如果模型得到简化,则可以运行得更快,并且更轻量级。
集成
一种称为集成的机器学习方法结合了来自两个或多个不同模型的预测。两种最常见的集成技术是Bagging和Boosting。
Boosting 通过使用简单的基础模型来提高模型的总复杂性。它按顺序指导大量弱学习器,以便序列中的每个学习器都能从其前面学习器的错误中学习。
Boosting 通过组合序列中的所有弱学习器来产生一个强学习器。Boosting 的替代方法是称为 Bagging 的集成技术。为了最大化预测,大量强学习器并行训练,然后组合起来。这就是 Bagging 的工作方式。
结论
过拟合是指计算机程序无法泛化数据集。为了避免过拟合,可以将数据分解成训练集和测试子集。用户应继续收集更多数据以提高模型的准确性。数据增强向数据添加噪声,使每个数据集看起来都是唯一的。应谨慎使用噪声添加,以免过多地影响数据的准确性或一致性。