使用Python检测和处理回归中的多重共线性


多重共线性是指回归模型中的自变量之间存在高度的相互依赖关系。这可能会导致模型系数不准确,难以评估不同的自变量如何影响因变量。在这种情况下,需要识别和处理回归模型的多重共线性,我们将逐步解释不同的程序及其输出。

方法

  • 检测多重共线性

  • 处理多重共线性

算法

步骤1 − 导入必要的库

步骤2 − 将数据加载到pandas DataFrame中

步骤3 − 使用预测变量创建相关矩阵

步骤4 − 创建相关矩阵的热力图以可视化相关性

步骤5 − 计算每个预测变量的方差膨胀因子(VIF)

步骤6 − 确定预测变量

步骤7 − 应移除预测变量

步骤8 − 重新运行回归模型

步骤9 − 再次检查。

方法一:检测多重共线性

利用pandas包的corr()函数确定自变量的相关矩阵。使用seaborn库生成热力图以显示相关矩阵。利用statsmodels包中的variance_inflation_factor()函数确定每个自变量的方差膨胀因子(VIF)。VIF大于5或10表示存在高度的多重共线性。

示例-1

在此代码中,一旦数据加载到Pandas DataFrame中,预测变量X和因变量y就会被分开。为了计算每个预测变量的VIF,我们使用statsmodels包中的variance_inflation_factor()函数。该过程的最后一步是在将VIF值以及预测变量的名称存储在一个新的Pandas DataFrame中之后显示结果。使用此代码,将生成一个表,其中包含每个预测变量的变量名称和VIF值。当变量具有较高的VIF值(根据情况高于5或10)时,重要的是要进一步分析该变量。

import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Load data into a pandas DataFrame
data = pd.read_csv("mydata.csv")

# Select independent variables
X = data[['independent_var1', 'independent_var2', 'independent_var3']]

# Calculate VIF for each independent variable
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif["features"] = X.columns

# Print the VIF results
print(vif)

输出

VIF  Factor      Features 
0    3.068988    Independent_var1
1    3.870567    Independent_var2
2    3.843753    Independent_var3

方法二:处理多重共线性

从模型中去除一个或多个高度相关的自变量。可以使用主成分分析(PCA)将高度相关的自变量组合成单个变量。可以使用岭回归或LASSO回归等正则化方法来减少高度相关的自变量对模型系数的影响。使用上述方法,可以使用以下示例代码来识别和处理多重共线性:

import pandas as pd
import seaborn as sns
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.decomposition import PCA
from sklearn.linear_model import Ridge

# Load the data into a pandas DataFrame
data = pd.read_csv('data.csv')

# Calculate the correlation matrix
corr_matrix = data.corr()

# Create a heatmap to visualize the correlation matrix
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')

# Check for VIF for each independent variable
for i in range(data.shape[1]-1):
   vif = variance_inflation_factor(data.values, i)
   print('VIF for variable {}: {:.2f}'.format(i, vif))

# Remove highly correlated independent variables
data = data.drop(['var1', 'var2'], axis=1)

# Use PCA to combine highly correlated independent variables
pca = PCA(n_components=1)
data['pca'] = pca.fit_transform(data[['var1', 'var2']])

# Use Ridge regression to reduce the impact of highly correlated independent variables
X = data.drop('dependent_var', axis=1)
y = data['dependent_var']
ridge = Ridge(alpha=0.1)
ridge.fit(X, y)

除了输出每个自变量的VIF值外,该函数不会生成任何其他输出。运行此代码只会输出每个自变量的VIF值;不会打印图表或模型性能。

在此示例中,数据首先加载到pandas DataFrame中,然后计算相关矩阵,最后创建热力图以显示相关矩阵。然后,在测试每个自变量的VIF后,我们消除高度相关的自变量。我们使用岭回归来减少高度相关的自变量对模型系数的影响,并使用PCA将高度相关的自变量合并成单个变量。

import pandas as pd

#create DataFrame
df = pd.DataFrame({'rating': [90, 85, 82, 18, 14, 90, 16, 75, 87, 86],
         'points': [22, 10, 34, 46, 27, 20, 12, 15, 14, 19],
         'assists': [1, 3, 5, 6, 5, 7, 6, 9, 9, 5],
         'rebounds': [11, 8, 10, 6, 3, 4, 4, 10, 10, 7]})

#view DataFrame
print(df)

输出

   rating  points  assists  rebounds
0      90      22        1        11
1      85      10        3         8
2      82      34        5        10
3      18      46        6         6
4      14      27        5         3
5      90      20        7         4
6      16      12        6         4
7      75      15        9        10
8      87      14        9        10
9      86      19        5         7

使用Pandas包,可以通过这个Python程序生成一个称为DataFrame的数组数据结构。具体的维度包含四个不同的列:助攻、篮板、得分和评分。库本身在代码的第一行导入,之后简称为“pd”以减少复杂性。DataFrame最终是通过在第二行代码中执行的pd.DataFrame()方法构建的。

在第三行代码中,使用print()方法将DataFrame打印到控制台。每个列的值构成列表的定义,充当输入到函数的字典的键和值。每个球员的信息都以表格形式显示,得分、助攻、篮板的统计数据按列排列,每一行代表一个球员。

结论

总而言之,当模型中的两个或多个预测变量彼此之间具有很强的相关性时,就称为多重共线性。这种现象可能使模型结果难以解释。在这种情况下,难以确定每个独特的预测变量如何影响结果变量。

更新于:2023年7月24日

浏览量:1000+

开启你的职业生涯

完成课程获得认证

开始学习
广告