时间序列 - 自回归

对于平稳时间序列，自回归模型将时间 't' 处的变量值视为其之前 'p' 个时间步长的值的线性函数。数学上可以写成 -

$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_{t-p}+\epsilon_{t}$$

其中，‘p’ 是自回归趋势参数

$\epsilon_{t}$ 是白噪声，并且

$y_{t-1}, y_{t-2}\:\: ...y_{t-p}$ 表示变量在先前时间段的值。

可以使用各种方法校准 p 的值。找到 'p' 的合适值的一种方法是绘制自相关图。

注意 - 在对数据进行任何分析之前，我们应该将数据以 8:2 的比例分成训练集和测试集，因为测试数据仅用于找出模型的准确性，并且假设是，在进行预测之前，我们无法获得它。在时间序列的情况下，数据点的顺序非常重要，因此在分割数据时应注意不要丢失顺序。

自相关图或相关图显示了变量与其自身在先前时间步长的关系。它利用皮尔逊相关系数，并在 95% 的置信区间内显示相关性。让我们看看它在我们数据的“温度”变量中是什么样的。

显示 ACP

在 [141]

split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]

在 [142]

from statsmodels.graphics.tsaplots import plot_acf

plot_acf(train, lags = 100)
plt.show()

所有位于阴影蓝色区域之外的滞后值都被认为具有相关性。

打印页面