机器学习中的线性回归



机器学习中的线性回归被定义为一种统计模型,它分析因变量与一组给定的自变量之间的线性关系。变量之间的线性关系意味着,当一个或多个自变量的值发生变化(增加或减少)时,因变量的值也会相应地发生变化(增加或减少)。

在机器学习中,线性回归用于根据学习到的线性关系来预测新数据和未见数据的连续数值。它被用于预测建模、金融预测、风险评估等。

在本章中,我们将详细讨论以下主题:

什么是线性回归?

线性回归是一种统计技术,它估计因变量和一个或多个自变量之间的线性关系。在机器学习中,线性回归被实现为一种监督学习方法。在机器学习中,标记数据集包含输入数据(特征)和输出标签(目标值)。对于机器学习中的线性回归,我们将特征表示为自变量,目标值表示为因变量。

为简化起见,请考虑以下数据(单个特征和单个目标):

平方英尺 (X) 房价 (Y)
1300 240
1500 320
1700 330
1830 295
1550 256
2350 409
1450 319

在上述数据中,目标房价是由 X 表示的因变量,而特征平方英尺是由 Y 表示的自变量。输入特征 (X) 用于预测目标标签 (Y)。因此,自变量也称为预测变量,因变量也称为响应变量。

因此,让我们将机器学习中的线性回归定义如下:

在机器学习中,线性回归使用线性方程来模拟因变量 (Y) 和一个或多个自变量 (Y) 之间的关系。

线性回归模型的主要目标是找到通过一组数据点的最佳拟合直线(通常称为回归线)。

回归线

显示因变量和自变量之间关系的直线称为回归线。

ML Regression Line

此外,线性关系可以是正的或负的,如下所述:

1. 正线性关系

如果自变量和因变量都增加,则线性关系称为正线性关系。这可以通过下图来理解:

Positive Linear Relationship

2. 负线性关系

如果自变量增加而因变量减少,则线性关系称为负线性关系。这可以通过下图来理解:

Negative Linear Relationship

线性回归分为两种类型:“简单线性回归”和“多元线性回归”,我们将在本教程的接下来的两章中讨论。

线性回归的类型

线性回归分为以下两种类型:

  • 简单线性回归
  • 多元线性回归

1. 简单线性回归

简单线性回归是一种回归分析,其中使用单个自变量(也称为预测变量)来预测因变量。换句话说,它模拟因变量和单个自变量之间的线性关系。

ML Simple Linear Regression

在上图中,直线代表简单线性回归线,其中 Ŷ 是预测值,X 是输入值。

数学上,这种关系可以建模为线性方程:

$$\mathrm{ Y = w_0 + w_1 X + \epsilon }$$

其中

  • Y 是因变量(目标)。
  • X 是自变量(特征)。
  • w0 是线的 y 截距。
  • w1 是线的斜率,表示 X 对 Y 的影响。
  • ε 是误差项,捕获 X 未解释的 Y 中的可变性。

2. 多元线性回归

多元线性回归基本上是简单线性回归的扩展,它使用两个或多个特征来预测响应。

当处理多个自变量时,我们将简单线性回归扩展到多元线性回归。模型表示为:

多元线性回归将简单线性回归的概念扩展到多个自变量。模型表示为:

$$\mathrm{Y = w_0 + w_1 X_1 + w_2 X_2 + \dots + w_p X_p + \epsilon}$$

其中

  • X1、X2、…、Xp 是自变量(特征)。
  • w0、w1、…、wp 是这些变量的系数。
  • ε 是误差项。

线性回归是如何工作的?

线性回归的主要目标是找到通过一组数据点的最佳拟合线,使实际值和预测值之间的差异最小化。那么这是如何实现的呢?这是通过估计参数 w0、w1 等来实现的。

机器学习中线性回归的工作原理可以分解为以下步骤:

  • **假设** - 我们假设输入和输出之间存在线性关系。
  • **成本函数** - 定义损失或成本函数。成本函数量化模型的预测误差。成本函数获取模型的预测值和实际值,并返回表示模型预测成本的单个标量值。
  • **优化** - 通过更新模型的参数来优化(最小化)模型的成本函数。

它持续更新模型的参数,直到模型预测的成本或误差被优化(最小化)。

让我们更详细地讨论以上三个步骤 -

线性回归的假设函数

在线性回归问题中,我们假设输入特征 (X) 和预测值 (Ŷ) 之间存在线性关系。

假设函数返回给定输入值的预测值。通常我们用 hw(X) 表示假设函数,它等于Ŷ。

简单线性回归的假设函数 -

$$\mathrm{\hat{Y} = w_0 + w_1 X}$$

多元线性回归的假设函数 -

$$\mathrm{\hat{Y} = w_0 + w_1 X_1 + w_2 X_2 + \dots + w_p X_p}$$

对于不同的参数值(权重),我们可以找到许多回归线。主要目标是找到最佳拟合线。让我们如下讨论 -

寻找最佳拟合线

我们在上面讨论过,不同的参数集会提供不同的回归线。但是,每条回归线都不能代表输入和输出值之间的最佳关系。主要目标是找到最佳拟合线。

如果实际值和预测值之间的误差最小,则称回归线为最佳拟合线。

下图显示了在输入数据点 X 处带有误差 (ε) 的回归线。误差是针对所有数据点计算的,我们的目标是最小化平均误差/损失。我们可以使用不同类型的损失函数,例如均方误差 (MSE)、平均绝对误差 (MAE)、L1 损失、L2 损失等。

ML Best Fit Line Representation

那么,我们如何最小化实际值和预测值之间的误差呢?让我们讨论一个重要的概念,即成本函数或损失函数。

线性回归的损失函数

可以使用损失函数或成本函数来量化实际值和预测值之间的误差。该成本函数采用模型的预测值和实际值,并返回一个表示模型预测成本的单个标量值。我们的主要目标是最小化成本函数。

最常用的成本函数是均方误差函数。

$$\mathrm{J(w_0, w_1) = \frac{1}{2n} \sum_{i=1}^{n} \left( Y_i - \hat{Y}_i \right)^2}$$

其中,

  • n 是数据点的数量。
  • Yi 是第 i 个数据点的观测值。
  • \( \hat{Y}_i = w_0 + w_1 X_i \) 是第 i 个数据点的预测值。

用于优化的梯度下降法

现在我们已经定义了损失函数。下一步是最小化它并找到参数或权重的最优值。找到参数的最优值以使损失或误差最小化的过程称为模型优化。

梯度下降是线性回归最常用的优化技术之一。

为了找到参数的最优值,经常使用梯度下降法,尤其是在数据集很大的情况下。梯度下降法迭代地调整参数,使其沿成本函数最陡峭下降的方向移动。

参数更新由下式给出

$$\mathrm{w_0 = w_0 - \alpha \frac{\partial J}{\partial w_0}}$$

$$\mathrm{w_1 = w_1 - \alpha \frac{\partial J}{\partial w_1}}$$

其中 α 是学习率,偏导数为

$$\mathrm{\frac{\partial J}{\partial w_0} = -\frac{1}{n} \sum_{i=1}^{n} \left( Y_i - \hat{Y}_i \right)}$$

$$\mathrm{\frac{\partial J}{\partial w_1} = -\frac{1}{n} \sum_{i=1}^{n} \left( Y_i - \hat{Y}_i \right) X_i}$$

这些梯度用于更新参数,直到达到收敛(即,当 \( w_0 \) 和 \( w_1 \) 的变化变得可以忽略不计)。

线性回归的假设

以下是线性回归模型对数据集做出的某些假设 -

多重共线性 - 线性回归模型假设数据中几乎没有或没有多重共线性。基本上,当自变量或特征之间存在依赖关系时,就会发生多重共线性。

自相关 - 线性回归模型的另一个假设是数据中几乎没有或没有自相关。基本上,当残差误差之间存在依赖关系时,就会发生自相关。

变量之间的关系 - 线性回归模型假设响应变量和特征变量之间的关系必须是线性的。

违反这些假设会导致偏差或效率低下的估计。必须验证这些假设以确保模型的准确性。

线性回归的评估指标

为了评估线性回归模型的性能,使用了几个评估指标 -

R 平方 (R2) - 它衡量因变量中可由自变量预测的方差比例。

$$\mathrm{ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} }$$

均方误差 (MSE) - 它衡量预测值和实际值之间平方差之和的平均值。

$$\mathrm{ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 }$$

均方根误差 (RMSE) - 它衡量 MSE 的平方根。

$$\mathrm{ \text{RMSE} = \sqrt{\text{MSE}} }$$

平均绝对误差 (MAE) - 它衡量预测值和实际值之间差异的绝对值之和的平均值。

$$\mathrm{ \text{MAE} = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i| }$$

线性回归的应用

1. 预测建模

线性回归广泛用于预测建模。例如,在房地产中,根据大小、位置和卧室数量等特征预测房价可以帮助买家、卖家和房地产经纪人做出明智的决定。

2. 特征选择

在多元线性回归中,分析系数有助于特征选择。系数较小或为零的特征可能被认为不太重要,可以删除以简化模型。

3. 金融预测

在金融领域,线性回归模型可以预测股票价格、经济指标和市场趋势。准确的预测可以指导投资策略和财务规划。

4. 风险管理

线性回归通过对风险因素和财务指标之间的关系建模来帮助进行风险评估。例如,在保险中,它可以对投保人特征与索赔金额之间的关系建模。

线性回归的优点

  • 可解释性 - 线性回归易于理解,这在解释模型如何做出决策时非常有用。
  • 速度 - 线性回归比许多其他机器学习算法训练速度更快。
  • 预测分析 - 线性回归是预测分析的基础组成部分。
  • 线性关系 - 线性回归是一种强大的统计方法,用于查找变量之间的线性关系。
  • 简单性 - 线性回归易于实现和解释。
  • 效率 - 线性回归计算效率高。

线性回归的常见挑战

1. 过拟合

过拟合是指回归模型在训练数据上表现良好,但在测试数据上缺乏泛化能力的情况。过拟合会导致对新的、未见过的数据的预测效果差。

2. 多重共线性

当因变量(预测变量或特征变量)相关时,这种情况称为多重共线性。在这种情况下,参数(系数)的估计值可能不稳定。

3. 离群值及其影响

离群值会导致回归线成为大多数数据点的糟糕拟合。

多项式回归:线性回归的替代方法

多项式线性回归是一种回归分析,其中自变量和因变量之间的关系被建模为 n 次多项式函数。多项式回归允许捕获变量之间比简单和多元线性回归中的线性关系更复杂的关系。

广告