为什么普通最小二乘法 (OLS) 不是一个好的选择?


简介

普通最小二乘法是线性回归分析中一种广受欢迎且常用的方法 (OLS)。然而,对于数据分析和预测,它并不总是最佳选择。OLS 存在一些局限性和假设,如果处理不当,可能会导致偏差和错误的结果。本文将介绍 OLS 的缺点和局限性,以及它可能不适合所有数据集和应用的一些原因。我们还将探讨其他回归分析方法和技术,这些方法可以克服 OLS 的缺点,并提供更准确和可靠的结果。

数据科学家和分析师可以通过了解 OLS 的缺点并探索替代方案,为其独特的数据集和应用选择最佳方法。

这将提高其预测和分析的精度和质量。

什么是普通最小二乘法 (OLS)?

OLS 通过最小化预期值和实际值之间残差平方和来寻找最适合给定数据集的直线。残差是预测值和实际值之间的差异。最适合的直线具有最小的残差平方和。为了使 OLS 能够工作,残差必须正态分布且具有恒定方差。

OLS 是一种简单易懂的方法,不需要复杂的计算或底层数据假设。但是,重要的是要认识到 OLS 存在一些缺点。

使用普通最小二乘法 (OLS) 的缺点

普通最小二乘法 (OLS) 的一些缺点包括:

  • 对异常值敏感:由于 OLS 对异常值非常敏感,因此数据中的异常值可能会严重影响模型的性能。如果数据集中存在异常值,则使用 OLS 获得的回归系数估计可能会产生偏差。

  • OLS 假设自变量和因变量之间存在线性关系。如果此假设不成立,则 OLS 模型可能会产生错误的结果。

  • 误差的正态性和恒定方差的假设:OLS 假设模型的误差既是正态分布的,又具有恒定方差。如果误差不是正态分布的或具有非恒定方差,则它可能会导致回归系数估计产生偏差以及错误的预测。

  • 无法处理分类变量:OLS 不适合处理分类变量或变量之间的交互作用,而这些因素在许多现实世界的应用中可能是重要的因素。在这种情况下,其他回归技术(如逻辑回归或决策树)可能更合适。

  • 过拟合:如果模型过于复杂或预测变量过多,OLS 可能会出现过拟合。这可能导致对新数据的泛化性能下降。

  • OLS 假设预测变量之间没有高度相关性。如果存在多重共线性或预测变量之间存在显著相关性,则回归系数估计可能会不稳定。

  • 缺乏稳健性:OLS 对假设违反不具有稳健性。假设的细微变化可能会导致回归系数估计发生巨大变化。

普通最小二乘法 (OLS) 的替代方法

尽管存在这些缺点,但由于其简单性和易用性,OLS 仍然是回归分析中一种流行的方法。但是,可以使用各种其他方法来克服 OLS 的局限性。以下是一些示例:

  • 使用普通最小二乘法 (OLS) 的一种替代方法是使用稳健回归方法,例如 Huber 回归或 M 估计。这些方法旨在处理违反 OLS 假设的异常值和重尾分布。

  • Huber 回归是 OLS 和 M 估计的混合体。它使用一个损失函数,对于小的误差是二次的,对于大的误差是线性的,这使得它比 OLS 对异常值不太敏感。确定二次损失和线性损失之间切换的参数称为调整常数。如果将调整常数设置为零,则 Huber 回归等价于 OLS。随着调整常数的增加,估计量对异常值变得更加稳健。

  • M 估计是一种稳健回归方法,它侧重于最小化某个目标函数。目标函数是损失函数和权重函数的混合体。损失函数计算观察值和预测数据之间的差异,但权重函数为不太可能是异常值的观察值赋予更大的权重。

  • 迭代加权最小二乘 (IRLS) 估计量是一种常见的 M 估计量。IRLS 估计量根据模型参数的当前估计值重复更新权重函数。在每次迭代中,权重函数为具有较大残差的观察值分配更大的权重,从而减少异常值对参数估计的影响。

  • OLS 的另一种替代方法是使用非参数回归方法,例如核回归或样条回归。非参数回归方法不假设预测变量和响应变量之间关系的特定函数形式。相反,它们使用灵活的函数来估计关系,这些函数可以适应数据。

  • 核回归通过对相邻观察值的响应变量进行平均来工作,并由一个核函数加权,该核函数为更接近的观察值分配更大的权重。核函数的带宽参数确定估计函数中的平滑程度。

  • 样条回归通过将预测变量范围划分为区间并在每个区间拟合一个单独的多项式函数来工作。多项式的次数和区间的数量由交叉验证或其他模型选择标准确定。样条回归可以捕获预测变量和响应变量之间的非线性关系,但它可能不如参数回归模型易于解释。

结论

总而言之,虽然 OLS 是一种流行的线性回归分析方法,但它存在各种局限性和假设,这些局限性和假设可能会导致偏差和错误的结果。了解 OLS 的局限性并探索其他方法(如稳健回归、岭回归和 LASSO 回归),这些方法可以克服这些限制并产生更准确和一致的结果,这一点至关重要。数据科学家和分析师可以通过使用这些替代方法以及对哪种方法适合其数据集和应用做出明智的判断,来提高其预测和分析的质量和准确性。

更新于:2023年7月24日

297 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告