QUICK REVIEW

[论文解读] Well-calibrated Model Uncertainty with Temperature Scaling for Dropout Variational Inference

Max-Heinrich Laves, Sontje Ihler|arXiv (Cornell University)|Sep 30, 2019

Adversarial Robustness in Machine Learning参考文献 18被引用 26

一句话总结

本文提出温度缩放（temperature scaling）用于丢弃正则化变分推断，以在深度神经网络中生成校准良好的模型不确定性。通过在蒙特卡洛丢弃推断过程中对Softmax输出应用可学习的温度参数T，该方法显著降低了不确定性校准误差——在ResNet-101上对CIFAR-100数据集的不确定性校准误差（UCE）最高降低66%，同时保持模型准确率，并支持鲁棒的预测拒绝。

ABSTRACT

Model uncertainty obtained by variational Bayesian inference with Monte Carlo dropout is prone to miscalibration. The uncertainty does not represent the model error well. In this paper, temperature scaling is extended to dropout variational inference to calibrate model uncertainty. Expected uncertainty calibration error (UCE) is presented as a metric to measure miscalibration of uncertainty. The effectiveness of this approach is evaluated on CIFAR-10/100 for recent CNN architectures. Experimental results show, that temperature scaling considerably reduces miscalibration by means of UCE and enables robust rejection of uncertain predictions. The proposed approach can easily be derived from frequentist temperature scaling and yields well-calibrated model uncertainty. It is simple to implement and does not affect the model accuracy.

研究动机与目标

解决丢弃正则化变分推断中模型不确定性校准不良的问题，即预测置信度与实际错误率不一致。
将原本用于校准频率派Softmax输出的温度缩放方法，拓展至使用蒙特卡洛丢弃的贝叶斯深度学习。
提出一种新度量方法——期望不确定性校准误差（UCE），用于量化贝叶斯模型中的不确定性校准不良。
通过校准良好的不确定性估计，实现对不确定预测的鲁棒拒绝。
证明温度缩放在训练过程中相比置信度惩罚方法，能更有效地实现不确定性校准。

提出的方法

在蒙特卡洛丢弃推断过程中，对神经网络的logits应用温度缩放，使用标量温度参数T来软化Softmax输出。
通过在验证集上对期望不确定性校准误差（UCE）进行梯度下降，推导出温度缩放的更新规则。
使用N次前向传播的蒙特卡洛丢弃，近似后验预测分布，并通过归一化熵计算不确定性。
将归一化熵H̃(p)定义为不确定性度量，缩放至[0,1]区间，用于量化所有类别上的预测置信度。
通过在验证集上最小化UCE实现不确定性校准，其中UCE衡量的是在不同置信度区间内，预测置信度与实际准确率之间的期望差异。
将学习得到的温度T同时应用于模型似然和不确定性估计，确保校准的一致性。

实验结果

研究问题

RQ1温度缩放能否有效降低通过蒙特卡洛丢弃获得的模型不确定性的校准不良？
RQ2与置信度惩罚相比，温度缩放在不确定性校准和预测置信度校准方面表现如何？
RQ3温度缩放在多大程度上提升了基于不确定性的预测拒绝的可靠性？
RQ4温度缩放是否在提升不确定性校准的同时保持了模型准确率？
RQ5网络架构和深度对温度缩放在不确定性校准中的有效性有何影响？

主要发现

在CIFAR-100数据集上使用ResNet-101时，温度缩放将不确定性校准误差（UCE）最高降低了66%，UCE从30.33%降至2.41%。
在CIFAR-10数据集上使用ResNet-18时，UCE从未校准的7.60%降至TS校准后的5.27%，显示出一致的改进效果。
温度缩放优于置信度惩罚：尽管CP将ECE从5.20%降至3.37%，但TS在降低ECE和UCE方面表现更优，不确定性校准效果更佳。
校准良好的不确定性使预测拒绝更加鲁棒：随着不确定性阈值降低，错误率近乎线性下降，表明不确定性估计可靠。
该方法实现简单，不影响模型准确率，且可无需微调直接在推理阶段应用。
可靠性图验证表明，TS校准后的不确定性更准确地匹配了不同置信度区间内的实际准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。