[论文解读] CatBoost: unbiased boosting with categorical features
CatBoost 引入有序提升和基于置换的目标统计方法来处理分类特征,降低预测偏移并在多样化任务中提高相对于 XGBoost 和 LightGBM 的性能。
This paper presents the key algorithmic techniques behind CatBoost, a new gradient boosting toolkit. Their combination leads to CatBoost outperforming other publicly available boosting implementations in terms of quality on a variety of datasets. Two critical algorithmic advances introduced in CatBoost are the implementation of ordered boosting, a permutation-driven alternative to the classic algorithm, and an innovative algorithm for processing categorical features. Both techniques were created to fight a prediction shift caused by a special kind of target leakage present in all currently existing implementations of gradient boosting algorithms. In this paper, we provide a detailed analysis of this problem and demonstrate that proposed algorithms solve it effectively, leading to excellent empirical results.
研究动机与目标
- 提出梯度提升方法以解决在提升和分类特征处理过程中由目标泄漏引起的预测偏移。
- 通过使用历史一致的残差来发展有序提升以防止泄漏。
- 通过有序目标统计和特征组合提出对高基数分类特征的高效处理。
- 在多个数据集上经验性地证明 CatBoost 相对于最先进提升器的性能优势。
提出的方法
- 引入有序提升,作为一种由置换驱动的标准梯度提升替代方法,以避免目标泄漏。
- 使用带有随机置换的有序原则来计算目标统计(TS),在不泄漏训练目标的情况下。
- 对分类特征进行按置换计算的有序 TS 处理,从而实现对所有训练数据的高效利用。
- 使用隐式决策树和将 TS 与梯度结合、基于置换的残差的树构建过程。
- 使用多次置换来稳定 TS 与预测,并可选的贝叶斯自助抽样用于正则化。
- 提供两种提升模式(有序和常规)以及保持高效性的实用实现细节。
实验结果
研究问题
- RQ1目标泄漏(预测偏移)在梯度提升中如何产生,如何减轻?
- RQ2有序提升和有序目标统计是否能在保持或提升预测性能的同时消除泄漏?
- RQ3在准确性和效率方面,CatBoost 对分类特征的方法与独热编码和梯度统计相比如何?
- RQ4所提方法是否在多样化数据集上对领先的提升库(XGBoost、LightGBM)带来一致的改进?
主要发现
- CatBoost 在多种数据集上通过有序提升和有序 TS 超越了 XGBoost 和 LightGBM。
- 有序提升降低预测偏差,在跨步使用独立残差时实现近似无偏估计;在每一步使用相同数据会引入可测量的偏差。
- 有序 TS 在分类特征方面显著优于贪婪、保留集和留一法的 TS 方法。
- 有序提升在较小数据集上尤为有利,而 Plain 模式在较大数据集上仍具竞争力。
- 将分类特征的组合作为额外的 TS 特征可在对数损失上带来显著提升。
- CatBoost 在维持所提技术带来的收益的同时,提供与标准 GBDT 相当的实际效率和复杂度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。