[论文解读] On Calibration of Modern Neural Networks
本文表明现代神经网络校准差,且简单的事后温度缩放在视觉和 NLP 任务中往往提供最佳校准。
Confidence calibration -- the problem of predicting probability estimates representative of the true correctness likelihood -- is important for classification models in many applications. We discover that modern neural networks, unlike those from a decade ago, are poorly calibrated. Through extensive experiments, we observe that depth, width, weight decay, and Batch Normalization are important factors influencing calibration. We evaluate the performance of various post-processing calibration methods on state-of-the-art architectures with image and document classification datasets. Our analysis and experiments not only offer insights into neural network learning, but also provide a simple and straightforward recipe for practical settings: on most datasets, temperature scaling -- a single-parameter variant of Platt Scaling -- is surprisingly effective at calibrating predictions.
研究动机与目标
- 研究现代神经网络在不同架构和数据集上的校准性。
- 量化深度、宽度、权重衰减和批归一化对校准的影响。
- 评估后处理标定方法并识别实用且有效的方法。
提出的方法
- 使用可靠性图、ECE 和 MCE 正式定义校准。
- 分析架构/训练选择如何影响校准(深度/宽度、BN、权重衰减)。
- 比较校准方法:直方图分箱、等距回归、BBQ、Platt scaling、temperature scaling、vector scaling、matrix scaling。
- 将标定方法从二分类扩展到多分类情形(One-vs-All、向量/矩阵缩放、温度缩放)。
- 在图像和文档分类数据集上,利用最先进架构评估这些方法。
实验结果
研究问题
- RQ1在不同架构和数据集上,现代神经网络的校准程度如何?
- RQ2哪些架构/训练选择会导致校准不良,后处理方法是否能高效矫正?
- RQ3在实际中,温度缩放是否足以或优于更复杂的标定方法?
主要发现
- 现代网络往往校准不足:更高的准确性并不意味着置信度被良好校准。
- 校准质量与模型容量、批归一化和权重衰减相关;更高容量和 BN 可能恶化校准。
- 温度缩放通常优于更复杂的校准方法,且计算速度快。
- 基于分箱的方法可以改善校准,但通常不及温度缩放;向量缩放的表现类似于温度缩放。
- 不同数据集的校准表现不同;Reuters 是一个例外,在那里温度缩放效果较差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。