Bagging和Boosting有什么区别?
Bagging
Bagging也称为自助聚合。这是一种集成学习方法,通常用于减少噪声数据集中的方差。在Bagging中,会从训练集中有放回地随机抽取数据样本,这意味着单个数据点可以被多次选择。
在生成多个数据样本后,这些弱模型会分别进行训练,并取决于任务回归或分类的元素。例如,这些预测的平均值会产生更有效的估计。
随机森林是对Bagging的扩展。它更进一步,预测随机的记录子集。它还会创建特征的随机选择,而不是使用所有特征来开发树。当它可以拥有多个随机树时,它被称为随机森林。
Bagging也已被金融市场中的深度学习模型所利用,自动化诸如欺诈检测、信用风险计算和期权定价等关键功能。
这项研究展示了如何在几种机器学习技术之间使用Bagging来创建贷款违约风险。这项研究了解了Bagging如何通过避免银行和金融机构中的信用卡欺诈来支持降低风险。
Boosting
Boosting是另一种集成过程,用于创建一组预测器。换句话说,它可以拟合连续的树,通常是随机样本,并且在每个阶段,目标都是解决先前树的净误差。
Boosting通常用于减少监督学习技术中的偏差和方差。它定义了一系列算法,这些算法将弱学习器(基础学习器)转换为强学习器。弱学习器是仅在一定程度上与实际分类正确相关的分类器,而强学习器是与实际分类高度相关的分类器。
让我们看看Bagging和Boosting之间的比较。
Bagging | Boosting |
---|---|
目标是减少方差,而不是偏差。 | 目标是减少偏差,而不是方差。 |
每个模型都是独立构建的。 | 新模型会受到先前开发的模型实现的影响。 |
这是连接属于同一类型的预测的最简单方法。 | 这是一种连接属于多种类型的预测的方法。 |
Bagging试图解决过拟合问题。 | Boosting试图减少偏差。 |
从整个训练数据集中有放回地随机抽取多个训练数据子集。 | 每个新的子集都包括先前模型错误分类的组件。 |
Bagging可以解决过拟合问题。 | Boosting可能会加剧过拟合问题。 |
广告