CatBoost - 提升过程



CatBoost(简称“Categorical Boosting”)就像其他梯度提升方法(如 XGBoost 或 LightGBM)一样,但它具有一些显著的优势,尤其是在处理类别数据时。

CatBoost 提升过程的关键步骤

因此,让我们讨论 CatBoost 提升过程的关键特性 -

  • 数据准备:CatBoost 自动使用目标统计量将类别特征转换为数值。这最大限度地提高了包含大量类别变量的数据集的效率。
  • 模型初始化:在 CatBoost 过程中,第一步是建立一个基本模型,通常是回归目标变量的平均值。
  • 梯度计算:在每一步中,此方法都会找到损失函数的梯度。损失函数是预期值和实际值之间的差异。此梯度为构建决策树提供了起点。
  • 决策树构建:CatBoost 使用对称树结构,其中树的每一层具有相同数量的节点。这样可以加快处理速度并提高预测时间。
  • 有序提升:CatBoost 的独特特征之一是有序提升。传统的提升方法存在过度拟合训练集的风险,因为它们借助整个数据集计算误差。但是 CatBoost 通过使用一种技术来降低过度拟合的可能性,该技术仅使用数据集的一部分。
  • 模型更新:当将新树添加到集成时,先前树的预测会贡献给新树,从而更新它生成的预测。
  • 重复:重复此过程,直到模型在验证数据集上的性能停止改进,或者达到预先指定的迭代次数。

CatBoost 提升过程的优势

以下是在使用 CatBoost 提升过程时应了解的优势 -

  • 有效管理类别特征:与以前的方法不同,CatBoost 不需要对类别特征进行独热编码或进行大量特征工程。

  • 更好的性能:CatBoost 通常在许多类型的数据上都能表现更好,尤其是在存在大量类别(如颜色或名称)的情况下。这是因为它使用了有序提升和其他有用的方法。

总结

CatBoost 逐步构建决策树以做出更好的预测。它在包含类别(如颜色或名称)的数据方面非常出色。它使用有序提升和目标编码等特殊方法来阻止模型因从训练数据中学习过多而犯错。这有助于模型在处理新数据时表现良好。

广告