预测分析 - 统计方法与机器学习技术

预测建模是预测分析的基础。预测分析和机器学习密切相关，因为预测模型最广泛地用于机器学习算法。这些模型会随着时间的推移而进行训练，以适应新的数据或值，并预测业务所需的见解。

有两种类型的预测模型。分类模型预测类别成员，而回归模型预测数字。然后，这些模型由算法组成。这些算法进行数据挖掘和统计分析，识别数据中的趋势和模式。预测分析技术使用内置算法，这些算法可用于生成预测模型。这些算法被称为“分类器”，它们确定数据项映射到的类别。

在预测分析中应用的一些最常用的统计方法如下：

1. 回归分析

回归是一种统计分析技术，用于确定因变量和自变量之间的关系。回归对于识别大型数据集中的趋势和确定输入之间的相关性非常有效。它在具有已知分布的连续数据上表现最佳。回归经常用于确定一个或多个自变量如何相互影响，例如价格上涨如何影响产品销售。

回归分析主要分为两类：

线性回归

线性回归分析主要使用线性方程来寻找因变量和一个或多个自变量之间的关系。它广泛用于预测连续结果，例如销售额或价格。

线性回归方程表示如下：

Y = a + bX

X 是沿 x 轴绘制的自变量，而 Y 是沿 y 轴绘制的因变量。

Lasso 和 Ridge 回归

这些是线性回归模型，它们使用惩罚（正则化）来防止过拟合，方法是减少不太重要的变量的系数。它最常用于涉及多个预测变量的场景——例如，使用多个变量预测房价。

逻辑回归

逻辑回归是回归分析的另一类；当因变量是分类变量（通常是二元类别，如成功/失败、是/否）时，使用此模型。它确定事件发生的概率。

逻辑函数通常用于统计模型中，以对二元因变量进行建模。逻辑函数也称为 S 型函数，其定义如下：

此函数有助于逻辑回归模型将值从 (-k, k) 压缩到 (0, 1)。逻辑回归主要用于二元分类任务，但也可以用于多类分类。

2. 分类模型

分类模型是预测分析中非常流行的一种统计模型。它们允许您根据其特征识别或分类观察结果。分类模型根据历史数据对数据进行分类。分类模型使用训练数据集，其中每个数据项都已标记。分类算法确定数据和标签之间的关系，并对新数据进行分类。决策树、随机森林和文本分析是一些最常见的分类建模。

分类模型在不同行业中被广泛使用，因为它们易于使用新数据重新训练。银行经常使用分类模型来检测欺诈性交易。系统可以评估数百万笔历史交易以预测潜在的欺诈活动，并在用户的帐户行为看起来可疑时通知用户。

支持向量机 (SVM)

SVM 是一种分类技术，它使用超平面来分离不同类型的数据。它在高维区域中运行良好，可用于分类和回归问题。例如：基于像素数据的图像分类。

超平面 - 多条线/决策边界可用于在 n 维空间中分离类别，但我们必须确定哪个决策边界适合对数据点进行分类。最佳边界称为 SVM 超平面。
支持向量 - 支持向量是最靠近超平面的数据点或向量，并且会影响其位置。由于这些向量支撑超平面，因此它们被称为支持向量。

贝叶斯方法

在统计学中，朴素贝叶斯也被称为概率分类器，它使用贝叶斯定理对数据进行分类。该定理基于给定事实和先验信息的情况下，假设的概率。朴素贝叶斯分类器意味着输入数据中的所有特征彼此独立，但这很少是实际情况。尽管有这个简化的假设，但由于其效率和在现实世界中不同应用中的高性能，朴素贝叶斯分类器被广泛使用。

贝叶斯推理使用贝叶斯定理来更新当有新数据可用时假设的概率。其最常见的应用是在概率推理和分类中。示例：根据指定术语的存在等特征来预测垃圾邮件。

朴素贝叶斯

朴素贝叶斯是一种分类技术，它使用贝叶斯定理并假设特征之间存在独立性。它最常用于文本分类和推荐系统。例如 - 垃圾邮件分类。

主成分分析 (PCA)

PCA 是一种降维方法，它将数据转换为一组称为主成分的不相关变量。它最常用于特征约简，同时保留重要的数据可变性。例如，考虑减少大型数据集的复杂性以进行预测建模。

3. 聚类模型

聚类模型根据可比特征组织数据。聚类模型使用数据矩阵，该矩阵将每个数据项与其相关特征关联起来。使用此矩阵，算法将对具有相似属性的项目进行聚类，从而识别数据中的模式。

组织可以使用聚类模型对客户进行分组并制定更量身定制的营销策略。例如，餐厅可能会按位置对客户进行分组，并且只向居住在其最新地点指定行驶距离内的客户发送传单。

K 近邻

聚类算法（例如 k 均值）用于根据其特征将相似数据点划分为聚类。它最常用于客户细分。例如，为了预测未来的行动，将相似的客户行为模式组合在一起。

K 近邻 (k-NN) 是一种非参数方法，用于根据其最近邻的大多数类别对对象进行分类。它最常用于分类，但也可以应用于回归。例如，可以根据客户的购买行为将客户分类到不同的组中。

决策树

决策树是分类模型，它根据不同的变量将数据分配到多个类别。总的来说，决策树类似于流程图，每个内部节点代表对特征的“决策”，每个分支代表结果，每个叶子代表类标签。它最常用于分类和回归问题。

在尝试理解个人的决策时，该模型最适合。该模型类似于一棵树，每个分支表示一个可能的选项，叶子表示决策的结果。决策树通常易于理解，并且在数据集具有多个缺失变量时表现良好。示例：根据使用模式预测客户流失。

随机森林

随机森林是一种集成方法，它使用许多决策树并聚合它们的输出以提高预测准确性。它最常用于分类和回归问题。示例：根据多个患者因素预测疾病诊断。这是决策树的扩展，它创建了一个决策树网络以提高准确性并减少过拟合。

梯度提升

梯度提升模型按顺序创建树，每棵树都纠正前一棵树的错误（例如，XGBoost）。梯度提升是一种集成方法，用于按顺序构建模型，每个新模型都纠正前一个模型的错误。它最常用于分类和回归中的结构化/表格数据。示例：预测客户生命周期价值。

4. 时间序列模型

时间序列模型收集关于时间的数据点。在现实世界中，大多数合适的示例可以将数据表示为时间序列，时间是预测分析中最常用的自变量之一。ARIMA（自回归积分移动平均）和指数平滑等时间序列分析方法用于对时间序列数据进行建模。它最常用于根据历史趋势预测未来值。例如 - 股票价格预测和需求预测。

这是一种非常典型的模型，它可能利用去年的数据来预测未来几周的统计数据。Power BI 和 Tableau 等高级商业分析工具使组织能够预测和分析不同的场景，而不会浪费时间和资源。由于时间是一个频繁出现的变量，企业会将时间序列数据用于具有不同目的的不同应用。该模型的实际应用在于季节性分析（预测资产如何受到一年中特定时间的影响）和趋势分析（识别资产随时间的变化）。一些实际应用包括预测下一季度的收入、预测商店的访客数量以及许多其他相关的应用。

5. 神经网络

神经网络是一种机器学习技术，在预测分析中发挥着至关重要的作用，可以发现复杂的关系。本质上，它们是模式识别算法。神经网络是受人脑启发的计算模型，由多层互连节点（“神经元”）组成。深度学习是具有多层的神经网络的一个子类。它主要用于图像分类和自然语言处理等复杂任务。例如：预测电子商务中的产品推荐。

神经网络非常适合确定数据集中非线性相关性，尤其是在没有已知的数学技术来分析数据的情况下。神经网络可以用来验证决策树和回归模型的输出。

打印页面