Bagging和Boosting有什么区别?


Bagging

Bagging也称为自助聚合。这是一种集成学习方法,通常用于减少噪声数据集中的方差。在Bagging中,会从训练集中有放回地随机抽取数据样本,这意味着单个数据点可以被多次选择。

在生成多个数据样本后,这些弱模型会分别进行训练,并取决于任务回归或分类的元素。例如,这些预测的平均值会产生更有效的估计。

随机森林是对Bagging的扩展。它更进一步,预测随机的记录子集。它还会创建特征的随机选择,而不是使用所有特征来开发树。当它可以拥有多个随机树时,它被称为随机森林。

Bagging也已被金融市场中的深度学习模型所利用,自动化诸如欺诈检测、信用风险计算和期权定价等关键功能。

这项研究展示了如何在几种机器学习技术之间使用Bagging来创建贷款违约风险。这项研究了解了Bagging如何通过避免银行和金融机构中的信用卡欺诈来支持降低风险。

Boosting

Boosting是另一种集成过程,用于创建一组预测器。换句话说,它可以拟合连续的树,通常是随机样本,并且在每个阶段,目标都是解决先前树的净误差。

Boosting通常用于减少监督学习技术中的偏差和方差。它定义了一系列算法,这些算法将弱学习器(基础学习器)转换为强学习器。弱学习器是仅在一定程度上与实际分类正确相关的分类器,而强学习器是与实际分类高度相关的分类器。

让我们看看Bagging和Boosting之间的比较。

BaggingBoosting
目标是减少方差,而不是偏差。目标是减少偏差,而不是方差。
每个模型都是独立构建的。新模型会受到先前开发的模型实现的影响。
这是连接属于同一类型的预测的最简单方法。这是一种连接属于多种类型的预测的方法。
Bagging试图解决过拟合问题。Boosting试图减少偏差。
从整个训练数据集中有放回地随机抽取多个训练数据子集。每个新的子集都包括先前模型错误分类的组件。
Bagging可以解决过拟合问题。Boosting可能会加剧过拟合问题。

更新于:2022年2月15日

浏览量 1K+

启动您的职业生涯

完成课程获得认证

开始学习
广告