如何使用 R 检测分类变量中的多重共线性?


多重共线性的术语与数值型变量有关。这意味着自变量线性相关,它们本质上是数值型的。分类变量本质上既可以是序数的,也可以是名义的,因此我们不能说它们可以线性相关。

示例

考虑以下数据帧 -

 Live Demo

x<-sample(LETTERS[1:4],30,replace=TRUE)
y<-sample(letters[1:4],30,replace=TRUE)
response<-rnorm(30)
df<-data.frame(x,y,response)
df

输出

   x  y   response
1  C  c   0.742577646
2  C  b   0.151037885
3  A  d   0.872867986
4  D  c   1.668988206
5  C  a  -0.310929854
6  B  b  -0.582732624
7  A  a  -1.189979792
8  A  d   0.869424789
9  B  c   1.321981265
10 A  c  -0.378250113
11 B  b   1.077948111
12 D  b  -1.166599657
13 A  b   1.218434700
14 B  b  -0.938781129
15 B  a   0.393036330
16 D  a   0.031261588
17 B  c  -0.926288814
18 D  b   0.807480575
19 A  d   2.056935369
20 B  c   0.464491514
21 B  d   0.466033703
22 D  b   0.236794674
23 D  b   0.761648127
24 C  b  -0.438568617
25 D  c  -1.806599022
26 B  c   0.885648179
27 A  b  -0.830359221
28 A  b   0.545703187
29 D  d   0.007146744
30 C  a  -0.243890913

看看分类列,并思考如何找出这些列之间的相关性。

更新于: 06-Mar-2021

1K+ 观看次数

启动你的 职业生涯

完成课程获得认证

开始
广告