数据挖掘中的回归类型有哪些?
回归定义了一种监督机器学习方法的类型,可用于预测任何连续值属性。回归为一些商业组织提供了探索目标变量和预测变量关联的机会。它是探索数据的重要工具,可用于货币预测和时间序列建模。
回归的类型多种多样,如下所示:
线性回归 - 线性回归包括找到两个属性(或变量)的“最佳”拟合线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的扩展,其中包含两个以上属性,并且数据点拟合到多维空间。
例如,方程为
Y = a + b*X + e.
其中,
a 定义截距
b 定义回归线的斜率
e 定义误差
X 和 Y 分别定义预测变量和目标变量。如果 X 由多个变量组成,则定义为多元线性方程。
在线性回归中,最佳拟合线是使用最小二乘法实现的,它减少了每个数据点到回归线的偏差平方和的总和。因此,正偏差和负偏差不会相互抵消,因为一些偏差是平方后的。
多项式回归 - 如果回归方程中自变量的幂大于 1,则定义为多项式方程。
例如,方程为
Y = a + b * x2
在特定回归中,最佳拟合线不视为直线(如线性方程);但它定义了一条拟合某些数据点的曲线。
逻辑回归 - 当因变量本质上是二元的,例如 0 和 1、真或假、成功或失败时,逻辑回归方法就会出现。因此,目标值 (Y) 的范围从 0 到 1,通常用于基于分类的问题。与线性回归不同,它不需要自变量和因变量之间存在线性关系。
岭回归 - 岭回归定义了一种可用于计算具有多重共线性问题的各种回归数据的过程。多重共线性是指两个或多个自变量之间存在线性相关关系。
Lasso 回归 - LASSO 代表最小绝对收缩和选择算子。Lasso 回归是一种使用收缩的线性回归方法。在 Lasso 回归中,一些数据点会收缩到一个中心点,也称为均值。Lasso 过程最适合参数数量比其他回归多的简单且稀疏的模型。这种回归方法非常适合处理存在多重共线性的模型。
广告