LightGBM - 提升算法



在我们查看 LightGBM 中各种提升算法之前,让我们先解释一下什么是提升算法。提升是一种有效的机器学习方法,可以提高模型的准确性。它通过组合多个弱模型(单独表现不佳的基本模型)来创建一个改进的模型,从而做出更好的预测。

LightGBM 是一个流行的提升框架。它包含各种创建强大预测模型的方法。

LightGBM 提升算法

LightGBM 支持各种提升技术。每种技术都有其自身创建模型和进行预测的方法。以下是 LightGBM 中使用的主要提升算法列表:

  • 梯度提升决策树 (GBDT)

  • 随机森林 (RF)

  • DART(Dropout 和多加性回归树)

  • 基于梯度的单侧采样 (GOSS)

让我们深入了解每种算法:

梯度提升决策树 (GBDT)

GBDT 是 LightGBM 中默认的也是最常用的算法。以下是它的工作原理:

工作原理?

GBDT 分阶段构建模型,每个阶段都会寻找上一级错误的修正。它使用决策树进行预测。决策树类似于流程图,它可以帮助您根据特定条件做出决策。

GBDT 非常强大且准确。它广泛用于各种任务,如分类和回归。

例如 - 在 GBDT 模型中,第一棵树可以预测一个人是否会购买产品。第二棵树将从第一棵树的问题中学习并尝试解决这些问题,循环将继续。

GBDT 的优势

以下是 GBDT 算法的优势:

  • 高精度。

  • 可以处理数值数据和分类数据。

  • 适用于大型数据集。

随机森林 (RF)

随机森林是另一种可以与 LightGBM 一起使用的提升方法。它与 GBDT 有些不同。

工作原理?

随机森林构建许多决策树,每棵树都基于不同的随机数据样本。然后它组合所有树木以获得最终预测。目标是最小化过拟合,过拟合是指模型在训练数据上表现良好但在新的未标记数据上表现不佳的情况。

随机森林可用于创建更稳定且不易出现新数据错误的模型。

想想由许多树组成的森林,每棵树代表一条独特的决策路径。最终选择取决于所有树木的多数投票。

随机森林的优势

以下是随机森林算法的优势:

  • 处理具有高维数(许多特征)的大型数据集。

  • 比单个决策树不太容易过拟合。

  • 在分类和回归挑战中表现良好。

DART(Dropout 遇到多加性回归树)

DART 是 GBDT 的改进版本,具有独特的变化。让我们看看它是如何工作的:

工作原理?

DART 类似于 GBDT,但增加了“dropout”的概念。Dropout 是在训练期间从模型的树中随机移除。这减少了模型对单个树的依赖性,使其更加稳健并更能抵抗过拟合。

如果您的 GBDT 模型过拟合,请考虑升级到 DART。它向模型中添加了正则化,从而提高了其在新数据上的性能。

假设您正在玩一个必须回答问题的游戏,其中一些问题会被随机消除。这使您可以更加关注剩余的问题,从而获得更好的整体性能。

DART 的优势

以下是 DART 算法的优势:

  • 通过使用 dropout 方法减少过拟合。

  • 在提高泛化能力的同时保持高精度。

GOSS(基于梯度的单侧采样)

GOSS 是一种为速度和效率而创建的提升算法。GOSS 显示最重要的数据点以加快训练速度。它通过仅选择具有最高错误的数据点和一些具有较低错误的数据点来实现这一点。这减少了需要处理的数据量,从而允许训练速度更快,同时保持高精度。

GOSS 非常适合快速训练模型,尤其是在大型数据集上。

假设您正在准备考试,并且选择只关注最难的问题。这节省了时间,同时完成了最具挑战性的部分,并确保您的表现。

GOSS 的优势

以下是 GOSS 算法的优势:

  • 更快的训练速度。

  • 通过关注重要的数据点来保持精度。

选择合适的提升算法

选择合适的提升算法取决于您的具体需求。

  • 对于高精度,从 GBDT 开始。它是大多数任务的理想默认解决方案。

  • 如果您有大型数据集并且需要快速训练,请尝试 GOSS。

  • DART 可以帮助您的模型防止过拟合。

  • 随机森林是一个可靠且简单的模型,具有良好的泛化能力。

广告
© . All rights reserved.