时间序列数据集的正确交叉验证技术

介绍

在处理时间序列数据时，采用考虑数据时间顺序的交叉验证方法至关重要。这是因为时间序列数据显示出自相关性，这意味着数据点的值与其先前值相关。因此，与许多其他机器学习应用不同，数据不能被认为是独立同分布 (iid) 的。

标准的k折交叉验证技术，它将数据随机分成k折，在k-1折上训练模型，然后在剩余的一折上进行测试，对于时间序列数据来说是不充分的。这是因为忽略了数据的时序性，可能导致过拟合。现在我们将介绍一些可以应用于时间序列数据集的交叉验证策略。

什么是时间序列数据集？

时间序列是按时间顺序排列的一系列观测数据。它用于根据特定时间间隔收集的数据点来评估数据模式、趋势和关系。时间序列数据用于经济学、股票市场研究、天气预报和金融等领域。时间序列数据的例子包括每小时的温度读数、每日的股票价格和每月的销售额。时间序列分析技术用于根据时间趋势分析和预测数据。

什么是交叉验证？

交叉验证是一种机器学习技术，用于评估模型在多个数据集上的性能。它包括将数据集分成训练集和测试集，然后使用训练集训练模型。然后使用结果来预测模型在新数据上的性能。然后使用测试集来评估模型的性能。交叉验证是必要的，以确保模型能很好地泛化到新数据，并可用于评估不同模型的有效性。

时间序列数据集交叉验证步骤

训练/测试分割
使用训练/测试分割，将数据分成训练集和测试集，是最基本的方法。训练集用于训练模型，而测试集用于测试模型。但是，由于时间序列数据具有时间顺序，因此必须相应地分割数据。
实现此目的的一种方法是根据指定的时间点将数据分成两半。例如，如果我们有每小时的数据，我们可以将其分成训练集（数据的前80%）和测试集（数据的后20%）。这确保了模型使用较早的时间点进行训练，并使用较晚的时间点进行评估。
滚动窗口交叉验证
这是一种考虑数据时间顺序的策略。它包括在训练数据的一个子集上训练模型，然后在下一批数据点上测试模型。然后将窗口向前移动预定义数量的数据点，并重复该过程。
假设我们有每小时的数据，并希望使用24小时的滚动窗口（即，我们在24小时的数据上训练模型，并在接下来的1小时数据上进行测试）。我们可以从在数据的前24小时上训练模型并在第25小时的数据上进行测试开始。然后，我们将窗口向前移动一小时并重复该过程，在第2-25小时的数据上训练模型并在第26小时的数据上进行测试。重复此方法，直到数据用完。
滚动窗口交叉验证的优点是它尊重数据的时序，并允许评估模型对未来和类似数据的性能。
分块时间序列交叉验证
分块时间序列交叉验证是一种将数据分成块，并使用每个块作为测试集，而其余数据作为训练集的技术。
假设我们有每周的数据，并希望使用分块时间序列交叉验证的两个块。我们可以将数据分成前50周和后50周。然后，模型将在前50周进行训练，并在后50周进行测试。然后反转该过程，模型在后50周进行训练，在前50周进行测试。
分块时间序列交叉验证的一个优点是，可以评估模型在更遥远未来的数据上的性能。这对于预测任务非常有用。
分组时间序列交叉验证
分组时间序列交叉验证是一种根据某些标准（例如，地理位置、客户细分）将数据分组，并使用每个组作为测试集，而其余数据作为训练集的策略。
如果我们有多个地点的每日数据，并希望应用分组时间序列交叉验证。我们可以根据地理位置将数据分组，每个组包含来自特定区域的数据。然后，模型将在除一个区域外的所有区域的数据上进行训练，并在该区域的数据上进行测试。然后对每个区域重复此方法。
在处理数据在不同组中表现出不同模式或行为的项目时，分组时间序列交叉验证是有利的，因为它允许我们独立地评估模型在每个组的数据上的性能。
净化时间序列交叉验证
在处理金融时间序列数据时，净化时间序列交叉验证是一种有价值的方法。金融时间序列数据通常包含可能导致模型性能评估偏差的事件（例如，股票分割、股息）。
净化时间序列交叉验证是指消除事件发生后特定时间范围（例如，5天）内发生的所有数据点。这确保了测试集中不包含受事件影响的数据点。
假设我们有每日股票数据，并希望使用净化时间序列交叉验证。如果股票分割发生在第10天，我们将消除未来5天内发生的所有数据点。然后，模型将在剩余的数据上进行训练，并在时间窗口之外的数据上进行测试。
净化时间序列交叉验证的好处是，它允许我们评估模型的性能，而不会受到数据事件的影响。

结论

总之，在处理时间序列数据时，采用考虑数据时间顺序的交叉验证方法至关重要。本文讨论的方法（训练/测试分割、滚动窗口交叉验证、分块时间序列交叉验证、分组时间序列交叉验证和净化时间序列交叉验证）都适用于时间序列数据，可以根据手头的任务使用。应使用适当的交叉验证方法评估模型的性能，以验证模型能够有效地泛化到未来数据。

Premansh Sharma

更新于：2023年7月24日

440 次浏览

开启你的职业生涯

完成课程获得认证

开始学习