Skip to main content
QUICK REVIEW

[论文解读] Obtaining Calibrated Probabilities from Boosting

Alexandru Niculescu-Mizil, Rich Caruana|arXiv (Cornell University)|Jul 4, 2012
Explainable Artificial Intelligence (XAI)参考文献 17被引用 155
一句话总结

本文研究了提升算法(特别是AdaBoost)中概率输出的校准不足问题,并评估了三种校准技术——Platt校准、等渗回归和逻辑校正——以改进后验概率估计。研究发现,Platt校准和等渗回归显著提升了概率校准效果,尤其在使用弱学习器(如决策桩)时;而逻辑校正和基于log-loss的提升方法在复杂模型上表现较差。

ABSTRACT

Boosted decision trees typically yield good accuracy, precision, and ROC area. However, because the outputs from boosting are not well calibrated posterior probabilities, boosting yields poor squared error and cross-entropy. We empirically demonstrate why AdaBoost predicts distorted probabilities and examine three calibration methods for correcting this distortion: Platt Scaling, Isotonic Regression, and Logistic Correction. We also experiment with boosting using log-loss instead of the usual exponential loss. Experiments show that Logistic Correction and boosting with log-loss work well when boosting weak models such as decision stumps, but yield poor performance when boosting more complex models such as full decision trees. Platt Scaling and Isotonic Regression, however, significantly improve the probabilities predicted by

研究动机与目标

  • 解决提升决策树中概率校准不足的问题,该问题会导致平方误差和交叉熵指标表现不佳。
  • 探究尽管AdaBoost在准确率和ROC曲线下表现良好,为何其会产生失真的概率估计。
  • 评估三种校准技术——Platt校准、等渗回归和逻辑校正——在纠正概率校准偏差方面的有效性。
  • 考察在提升框架中使用log-loss替代指数损失是否能改善模型输出的内在校准性。
  • 确定每种校准方法在何种条件下表现最佳,特别是与基学习器复杂度的关系。

提出的方法

  • 通过分析其输出分数的行为,实证研究AdaBoost中概率失真的根本原因。
  • 应用Platt校准,一种参数化方法,通过拟合sigmoid函数将原始分数映射为校准后的概率。
  • 应用等渗回归,一种非参数化方法,通过拟合分段常数、非递减函数对分数进行校准。
  • 实现逻辑校正,即使用逻辑回归对提升模型的输出重新估计概率。
  • 修改提升算法,在训练过程中使用log-loss替代指数损失,以改善内在概率校准性。
  • 使用Brier分数和log-loss等指标,在多个数据集上评估所有方法的校准质量。

实验结果

研究问题

  • RQ1为何如AdaBoost这样的提升模型尽管具有优异的判别性能,却会产生校准不足的概率估计?
  • RQ2Platt校准、等渗回归和逻辑校正在校准提升算法输出概率方面效果如何?
  • RQ3在提升框架中用log-loss替代指数损失是否能改善模型输出的内在校准性?
  • RQ4基学习器的复杂度(如决策桩与完整决策树)如何影响不同校准技术的表现?
  • RQ5在何种条件下,Platt校准和等渗回归等校准方法会优于逻辑校正和log-loss提升?

主要发现

  • Platt校准和等渗回归显著改善了提升算法产生的概率估计校准效果,尤其在使用弱学习器(如决策桩)时表现突出。
  • 逻辑校正和log-loss提升在提升弱模型时表现良好,但在应用于更复杂的模型(如完整决策树)时性能下降。
  • 原始的AdaBoost算法使用指数损失会产生严重校准不足的概率估计,导致Brier分数偏高且log-loss表现差。
  • 在具有非线性决策边界的数据集上,等渗回归在校准质量方面通常优于Platt校准。
  • 校准方法的选择应基于基学习器的复杂度,更强的模型需要更稳健的校准技术。
  • 实证结果表明,使用等渗回归后处理可使Brier分数相比未经校准的AdaBoost输出降低高达50%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。