机器学习中的 Epoch 是什么?
介绍
机器学习领域的核心确实是人工智能 (AI) 的学习组件。该学习组件是使用表示一组数据的算法创建的。某些数据集被发送到算法中以训练机器学习模型。
本文将定义机器学习中使用的术语“Epoch”,以及迭代、随机梯度下降等相关主题。任何学习深度学习和机器学习或试图在该行业寻求职业发展的人员都必须熟悉这些术语。
ML 中的 Epoch
在机器学习中,Epoch 是模型训练过程中对数据集的一次完整迭代。它用于衡量模型学习的进度,随着 Epoch 数量的增加,模型的准确性和性能通常会提高。
在训练过程中,模型会收到一组输入数据,称为训练数据集,模型的目标是学习一组权重和偏差,以便能够准确地预测看不见数据的输出。训练过程是通过根据模型在训练数据集上产生的误差调整模型的权重和偏差来完成的。
Epoch 是对整个训练数据集的一次遍历,其中所有示例都用于调整模型的权重和偏差。经过一个 Epoch 后,模型的权重和偏差将被更新,模型将能够在训练数据上做出更好的预测。此过程会重复多次,重复次数称为 Epoch 数。
Epoch 数是一个超参数,这意味着它是由用户设置的值,而不是由模型学习的值。Epoch 数会对模型的性能产生重大影响。如果 Epoch 数太低,模型将没有足够的时间来学习数据中的模式,其性能将会很差。另一方面,如果 Epoch 数太高,模型可能会过度拟合数据,这意味着它在训练数据上表现良好,但在看不见的数据上表现不佳。
Epoch 的确定
确定最佳 Epoch 数的一种方法是使用称为提前停止的技术。这涉及监控模型在验证数据集上的性能,验证数据集是模型以前从未见过的一组数据。如果模型在验证数据集上的性能在一定数量的 Epoch 后停止改进,则训练过程将停止,并保存模型的权重和偏差。这可以防止模型过度拟合训练数据。
确定最佳 Epoch 数的另一种方法是使用称为学习率调度技术。这涉及随着 Epoch 数的增加降低学习率,学习率是模型权重和偏差更新的速度。较高的学习率会导致模型超过最佳解决方案,而较低的学习率会导致模型收敛速度太慢。
通常,训练模型所需的 Epoch 数将取决于数据的复杂性和模型。在小型数据集上训练的简单模型可能只需要几个 Epoch,而在大型数据集上训练的更复杂模型可能需要数百甚至数千个 Epoch。
Epoch 的示例
让我们使用一个示例来说明 Epoch。假设一个数据集有 200 个样本。这些样本需要数据集通过模型 1000 次,或 1000 个 Epoch。批次大小为 5。这意味着模型权重在每个包含 5 个样本的 40 个批次中的每个批次之后都会更新。因此,模型将进行 40 次更新。
随机梯度下降
随机梯度下降 (SGD) 是一种优化算法。它用于深度学习神经网络中训练机器学习算法。这种优化算法的工作是找到一组内部模型参数,使其比其他性能指标(如均方误差或对数损失)表现更好。
优化过程可以比作基于学习的搜索。这里使用的优化算法称为梯度下降。术语“梯度”和“下降”分别指沿所需最小误差水平方向向下移动斜坡。“梯度”描述了误差梯度或误差斜率的计算。
该算法允许搜索过程在不同的步骤中重复进行。这样做的目的是在每个阶段略微改进模型参数。由于此属性,该算法是迭代的。
每个阶段都会使用样本和现有的内部参数进行预测。然后,将预测与实际预期结果进行比较。计算误差后,将修改内部模型参数。不同的算法使用不同的更新技术。当涉及人工神经网络时,该算法使用反向传播方法。
迭代
迭代是完成一个 Epoch 所需的批次总数。一个 Epoch 的总收敛率等于批次数量。
以下是一个有助于解释迭代的示例。
假设训练机器学习模型需要 5000 个训练实例。可以将此大型数据集划分为称为批次的较小单元。
如果批次大小为 500,则将生成 10 个批次。完成一个 Epoch 需要 10 次迭代。
结论
总之,Epoch 是模型训练过程中对整个训练数据集的一次遍历。它用于衡量模型学习的进度,并且 Epoch 数会对模型的性能产生重大影响。确定最佳 Epoch 数需要使用提前停止和学习率调度等技术。训练模型所需的 Epoch 数将取决于数据的复杂性和模型。