如何使用 R 检测分类变量中的多重共线性?
多重共线性的术语与数值型变量有关。这意味着自变量线性相关,它们本质上是数值型的。分类变量本质上既可以是序数的,也可以是名义的,因此我们不能说它们可以线性相关。
示例
考虑以下数据帧 -
x<-sample(LETTERS[1:4],30,replace=TRUE) y<-sample(letters[1:4],30,replace=TRUE) response<-rnorm(30) df<-data.frame(x,y,response) df
输出
x y response 1 C c 0.742577646 2 C b 0.151037885 3 A d 0.872867986 4 D c 1.668988206 5 C a -0.310929854 6 B b -0.582732624 7 A a -1.189979792 8 A d 0.869424789 9 B c 1.321981265 10 A c -0.378250113 11 B b 1.077948111 12 D b -1.166599657 13 A b 1.218434700 14 B b -0.938781129 15 B a 0.393036330 16 D a 0.031261588 17 B c -0.926288814 18 D b 0.807480575 19 A d 2.056935369 20 B c 0.464491514 21 B d 0.466033703 22 D b 0.236794674 23 D b 0.761648127 24 C b -0.438568617 25 D c -1.806599022 26 B c 0.885648179 27 A b -0.830359221 28 A b 0.545703187 29 D d 0.007146744 30 C a -0.243890913
看看分类列,并思考如何找出这些列之间的相关性。
广告