Skip to main content
QUICK REVIEW

[论文解读] CatBoost: gradient boosting with categorical features support

Anna Veronika Dorogush, Vasily Ershov|arXiv (Cornell University)|Oct 24, 2018
Music and Audio Processing参考文献 15被引用 1,325
一句话总结

CatBoost 是一个开源的梯度提升库,原生处理分类特征,在若干公开数据集上,在 GPU 和 CPU 实现下的准确性(logloss)优于 XGBoost、LightGBM 和 H2O。

ABSTRACT

In this paper we present CatBoost, a new open-sourced gradient boosting library that successfully handles categorical features and outperforms existing publicly available implementations of gradient boosting in terms of quality on a set of popular publicly available datasets. The library has a GPU implementation of learning algorithm and a CPU implementation of scoring algorithm, which are significantly faster than other gradient boosting libraries on ensembles of similar sizes.

研究动机与目标

  • 需要有效利用分类特征而不进行繁琐预处理的梯度提升方法的必要性.
  • 将 CatBoost 作为针对分类数据定制的新型梯度提升算法引入.
  • 显示 CatBoost 在多样化数据集上实现比现有 GBDT 库更高的预测质量。
  • 描述 CatBoost 如何通过新的叶值计算方案和梯度偏差处理来缓解过拟合。

提出的方法

  • 提出一种在训练过程中处理分类特征的梯度提升算法,使用带先验的统计编码的新颖方法。
  • 以无显式分支的树作为基预测器,采用平衡、固定深度的结构。
  • 引入一种对梯度偏差进行抗扰动的机制,训练独立模型以估计每个样本的无偏梯度。
  • 通过对特征进行二值化并使用二值特征向量进行叶节点索引,实现快速的 CPU 评分。
  • 提供基于直方图分裂的 GPU 加速训练路径,并使用按组直方图来提高吞吐量。
  • 支持特征组合并在生成组合特征时实现在线生成功能,同时避免组合爆炸。

实验结果

研究问题

  • RQ1CatBoost 是否能在高基数类别特征的数据集上相较 XGBoost、LightGBM 和 H2O 提高预测准确性?
  • RQ2在保持或提升模型质量的前提下,CatBoost 是否在 GPU 上提供明显的训练速度优势?
  • RQ3CatBoost 如何在带有分类特征的梯度提升中缓解梯度偏差与过拟合?
  • RQ4在 CatBoost 中使用特征组合来捕捉分类特征之间的交互的实际意义为何?

主要发现

  • CatBoost 在一组公开基准数据集上的分类任务的 logloss 表现优于 XGBoost、LightGBM 和 H2O。
  • CatBoost 的 GPU 实现相较 CPU 版本训练速度显著更快,并且在同等规模的集成上优于同类 GPU GBM。
  • 在可比的集成规模下,CatBoost 在 CPU 上的模型评分速度也比 XGBoost 和 LightGBM 更快。
  • 对统计计算使用多种排列以及基于先验的编码可降低高基数类别的过拟合。
  • 叶值计算和梯度偏差缓解策略有助于提升相对于标准 GBDT 的泛化能力。
  • 在 Epsilon 及其他数据集上,当配置合理的箱数时,CatBoost 的训练速度和评分性能优于 XGBoost 和 LightGBM。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。