多元回归
介绍
在学习多元线性回归之前,让我们先了解一下什么是线性回归。
线性回归有助于确定数据集中两个变量之间的关系。如前所述,线性回归仅限于两个变量。
因此,多元线性回归有助于确定两个以上变量之间的关系。
虽然多元线性回归无法克服线性回归的弱点,但它被用于构建具有多个自变量和单个因变量的回归模型。
多元线性回归最常用于计量经济学和金融推断。
定义
简单线性回归是一种工具,使我们能够根据其他变量的已知信息来预测数据集中某个变量的值。
多元线性回归是一种统计工具,它使用多个自变量来预测因变量的结果。
公式
线性回归只涉及一个自变量和一个因变量;而在多元线性回归中,使用多个自变量来更好地理解因变量。
$$\mathrm{\underline{y}=b_0+b_1 \underline{p_1 }-b_2 \underline{p_2 }.......b_n \underline{p_n }+ϵ}$$
其中,对于n=观察值的数量:
y 表示因变量
pn 表示解释变量
b0= y截距,为常数
bp= pn的斜率系数
ϵ= 模型的误差项。
逐步多元回归
逐步回归是一个过程,其中使用一个变量来预测回归模型,并逐个添加和删除变量。
逐步多元回归也可以描述为一种方法,它确定一个回归方程,该方程从一个自变量开始,然后依次添加自变量。
也称为向前选择法,在逐步多元回归方法中,我们从没有自变量开始,每次迭代向回归中添加一个自变量。
还有一种与向前选择法相反的方法,称为向后剔除法,它使用多个变量,并在每次迭代中剔除一个自变量。
残差 - 残差变异是回归模型解释的因变量值变异。也称为随机误差,这是由于使用了不同的抽样方法造成的。
逐步多元回归的优点
在回归方程中,使用回归系数(非零)的自变量。
确定回归方程的决定系数和多元标准误差估计的变化。
使用逐步多元回归可以有效地推导出具有相当数量的回归系数的回归方程。
多元多元回归
通常,使用双变量水平来寻找统计推断。对于多元多元回归,也已经开发出确定多个变量之间关系的检验。
多元回归分析是相关分析的扩展,用于多元推断。
多重共线性
如果预测变量之间的互相关性很高,则用来解释这种情况的术语是多重共线性。
多重共线性的迹象
如果一对预测变量之间存在高度相关。
如果回归系数的大小或符号没有物理意义。
如果许多预测变量的回归系数不显著。
预测变量的添加或删除取决于回归系数的大小或符号的显著性。
已解决示例
1.对于具有两个预测变量 p_1 和 p_2 和一个响应变量 q 的数据集,应用多元线性回归来创建回归模型。
| q | p1 | p2 | |
|---|---|---|---|
| 140 | 60 | 22 | |
| 155 | 62 | 25 | |
| 159 | 67 | 24 | |
| 179 | 70 | 20 | |
| 192 | 71 | 15 | |
| 200 | 72 | 14 | |
| 212 | 75 | 14 | |
| 215 | 78 | 11 | |
| 均值 | 181.5 | 69.375 | 18.125 |
| 总和 | 1452 | 555 | 145 |
首先,我们计算回归平方和,如下所示:
$$\mathrm{ \sum p_1^2=\sum p_1^2-\sum p_1/n=38767 – (555)^2 / 8 = 263.875}$$
$$\mathrm{ \sum p_2^2=\sum p_2^2-\sum p_2/n= 2823 – (145)^2 / 8 = 194.875 }$$
$$\mathrm{ \sum p_1 q==\sum p_1 q-\sum p_1 \sum q/n== 101895 – (555×1452) / 8 = 1162.5 }$$
$$\mathrm{ \sum p_2 q=\sum p_2 q-\sum p_2 \sum q/n== 25364 – (145×1452) / 8 = -953.5}$$
$$\mathrm{\sum p_1 p_2=\sum p_1 p_2-(\sum p_1 p_2)/n== 9859 – (555×145) / 8 = -200.375}$$
| p12 | p22 | p1 q | p2 q | p1 p2 |
|---|---|---|---|---|
| 3600 | 484 | 8400 | 3080 | 1320 |
| 3844 | 625 | 9610 | 3875 | 1550 |
| 4489 | 576 | 10653 | 3816 | 1608 |
| 4900 | 400 | 12530 | 3580 | 1400 |
| 5041 | 225 | 13632 | 2880 | 1065 |
| 5184 | 196 | 14400 | 2800 | 1008 |
| 5625 | 196 | 15900 | 2968 | 1050 |
| 6084 | 121 | 16770 | 2365 | 858 |
为了计算 b_1,我们使用以下公式:$\mathrm{[(\sum p_2^2)(\sum p_1 q)-(\sum p_1 p_2)(\sum p_2 q)]/[(\sum p_1^2)(\sum p_2^2)-(\sum p_1 p_2)^2]}$
因此,$\mathrm{ b_1= [(194.875)(1162.5) – (-200.375)(-953.5)] / [(263.875) (194.875) – (-200.375)^2] }$
$$\mathrm{ b_1=3.148}$$
计算 b2 的公式为:$\mathrm{[(\sum p_1^2)(\sum p_2 q)-(\sum p_1 p_2)(\sum p_1 q)]/[(\sum p_1^2)(\sum p_2^2)-(\sum p_1 p_2)^2]}$
因此,$\mathrm{b_2 = [(263.875)(-953.5) – (-200.375)(1152.5)] / [(263.875) (194.875) – (-200.375)^2] }$
$$\mathrm{ b_2=-1.656}$$
计算 b0 的公式为:$\mathrm{\underline{y}-b_1 \underline{p_1}-b_2 \underline{p_2}}$
因此,$\mathrm{b_0= 181.5 – 3.148(69.375) – (-1.656)(18.125) = -6.867}$
将b0、b1和b2的值代入方程。
线性回归方程将由下式给出:
$$\mathrm{\hat{y} = b_0 + b_1×p_1 + b_2×p_2}$$
$$\mathrm{\hat{y}=-6.867 + 3.148\: p_1 – 1.656\: p_2}$$
现在让我们分析上述线性方程的结果
b0 = -6.867。当 p_1 和 p2 都等于零时,y 的平均值为 -6.867。
b1= 3.148。假设 p2 为常数,p_1 增加一个单位对应于 q 增加 3.148 个单位。
b2=-1.656。假设 p1 为常数,p2 增加一个单位对应于 q 减少 1.656 个单位。
结论
多元回归是线性回归模型的替代方案,允许对具有多个自变量的系统进行预测。
线性回归是一种有用的工具,它利用单个因变量和自变量之间的线性关系。
多元线性回归最常用于计量经济学和金融推断。
逐步回归是一个过程,其中使用一个变量来预测回归模型,并逐个添加和删除变量。
多元回归分析是相关分析的扩展,用于多元推断。
常见问题
1. 线性回归的用途是什么?
借助线性回归,可以预测一段时间内石油价格、利率和石油价格走势,这些都会影响股票价格。
2. 线性回归的局限性是什么?
线性回归仅限于两个变量,一个因变量和一个自变量。
3. 多元线性回归的用途是什么?
多元线性回归最常用于计量经济学和金融推断。
4. 什么是逐步多元回归过程?
逐步回归是一个过程,其中使用一个变量来预测回归模型,并逐个添加和删除变量。
5. 什么是向后剔除法?
向后剔除法使用多个变量,并在每次迭代中剔除一个自变量。
数据结构
网络
关系数据库管理系统 (RDBMS)
操作系统
Java
iOS
HTML
CSS
Android
Python
C语言编程
C++
C#
MongoDB
MySQL
Javascript
PHP