什么是回归分析?
回归分析定义了一种监督式机器学习方法,可用于预测任何连续值属性。回归分析帮助企业探索目标变量和预测变量之间的关联。它是探索数据的重要工具,可用于货币预测和时间序列建模。
通过将数据拟合到函数(例如回归分析)可以平滑数据。线性回归包括找到拟合两个属性(或变量)的“最佳”直线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的扩展,其中包含两个以上属性,并且数据拟合到多维空间。
在线性回归中,数据建模为拟合一条直线。例如,随机变量 y(称为响应变量)可以建模为另一个随机变量 x(称为预测变量)的线性函数,其方程为 y = wx + b,其中 y 的方差被认为是恒定的。
回归问题处理基于输入值计算输出值。当用于分类时,输入值来自数据库,输出值表示类别。回归分析可用于探索分类问题,但也可用于多种应用,例如预测。回归分析的基本结构是简单线性回归,它只包含一个预测变量和一个预测值。
回归分析可以使用两种方法进行分类:
划分 - 数据被划分为位于类别上的区域。
预测 - 生成公式来预测输出类别的值。
这些方法用于根据一个或多个预测变量(自变量)预测响应变量(因变量)的值,其中变量为整数。回归分析有多种形式,例如线性回归、多元回归、加权回归、多项式回归、非参数回归和稳健回归(稳健技术在误差不满足正态性条件或数据包含大量异常值时很有用)。
回归分析可以预测某些依赖于自变量表达式的因变量数据集,并且趋势在一定时期内是可用的。回归分析提供了一种很好的预测变量的方法,但存在一些限制和假设,例如变量的独立性和变量固有的正态分布。
每个回归树叶节点存储一个连续值预测,它是覆盖该叶节点的训练集的预测属性的平均成本。相反,在模型树中,每个叶节点倾向于一个回归模型和预测属性的多元连续方程。当数据不能很好地用简单的线性模型表示时,回归树和模型树往往比线性回归更有效。