如何减少预测变量的数量?
数据挖掘中一个常见的问题是,当可以使用多个变量作为模型中的预测变量时,利用回归方程预测因变量的值。
另一个考虑因素是支持包含大量变量,希望能够发现以前隐藏的关系。例如,一家公司发现,购买椅子和桌子腿防磨保护器的客户信用风险较低。
在将所有可能的变量都放入模型之前,有几个原因需要谨慎。
为预期预测设置全部预测变量可能代价高昂或不可行。
能够更准确地计算较少的预测变量(例如,在调查中)。
预测变量越多,数据中缺失值的可能性就越高。如果我们删除或插补具有缺失值的记录,多个预测变量将导致更高的记录删除或插补率。
简约性是良好模型的一个基本特征。在参数较少的模型中,我们可以获得更多关于预测变量影响的见解。
由于多个变量模型中的多重共线性,回归系数的估计值可能模棱两可。(多重共线性是指两个或多个预测变量与结果变量之间共享相同的线性关系)。
简约模型的回归系数更强。一个非常粗略的经验法则是有几个记录 n 大于 5(p + 2),其中 p 是预测变量的数量。
可以证明,使用与结果变量不相关的预测变量会增加预测的方差。
可以证明,删除与结果变量相关的预测变量可以增加预测的平均误差(偏差)。
最后两点表明,预测变量的数量太少和太多之间存在权衡。一般来说,接受一些偏差可以减少预测的方差。这种偏差-方差权衡对于多个预测变量尤其重要,因为模型中可能存在一些变量,这些变量具有与噪声标准偏差相对应的小系数,并且还观察到至少与其他变量具有中等程度的相关性。
删除此类变量将改进预测,因为它减少了预测方差。这种类型的偏差-方差权衡是用于预测和分类的数据挖掘过程的基本要素。
广告