[论文解读] Bias-Reduced Uncertainty Estimation for Deep Neural Classifiers
本文提出了一种用于深度神经网络分类器的新颖不确定性估计方法,通过利用训练过程中的早期模型快照来降低置信度分数的偏差。通过为每个样本选择最优的早停模型,该方法——逐样本早停(PES)及其高效近似方法AES——在多个数据集和基线方法上一致提升了不确定性排序性能,显著降低了不确定性评估中的误差率。
We consider the problem of uncertainty estimation in the context of (non-Bayesian) deep neural classification. In this context, all known methods are based on extracting uncertainty signals from a trained network optimized to solve the classification problem at hand. We demonstrate that such techniques tend to introduce biased estimates for instances whose predictions are supposed to be highly confident. We argue that this deficiency is an artifact of the dynamics of training with SGD-like optimizers, and it has some properties similar to overfitting. Based on this observation, we develop an uncertainty estimation algorithm that selectively estimates the uncertainty of highly confident points, using earlier snapshots of the trained model, before their estimates are jittered (and way before they are ready for actual classification). We present extensive experiments indicating that the proposed algorithm provides uncertainty estimates that are consistently better than all known methods.
研究动机与目标
- 解决深度神经网络不确定性估计中的偏差问题,特别是针对高度自信的预测。
- 识别出由于SGD动力学导致置信度估计在训练过程中逐渐退化,表现出类似过拟合的特征。
- 通过在退化发生前选择模型的早期快照,恢复可靠的置信度估计。
- 在不依赖贝叶斯方法或额外训练数据的前提下,改进现有不确定性估计技术(如Softmax、MC-Dropout、集成方法)。
- 提供一种可扩展且计算高效的替代方案,以替代昂贵的模型选择,同时保持最先进性能。
提出的方法
- 提出逐样本早停(PES),基于验证集为每个测试样本选择最佳早期快照模型。
- 使用在辅助标注数据集上训练的选择机制,将每个测试样本映射到最可靠的早期模型。
- 提出近似早停(AES),一种PES的可扩展近似方法,通过在快照上使用学习函数避免训练独立模型。
- 将不确定性估计任务建模为不确定性排序的序数问题,并通过Platt缩放单独进行校准。
- 使用E-AURC(期望平均不确定性排名相关性)作为不确定性排序质量的代理指标。
- 对校准后的概率应用Platt缩放,并使用NLL和Brier评分评估以验证改进的鲁棒性。
实验结果
研究问题
- RQ1为何标准深度神经网络分类器会产生有偏差的不确定性估计,尤其是在高度自信的预测中?
- RQ2训练过程中的模型早期快照是否能提供比最终训练模型更可靠的不确定性估计?
- RQ3如何在不产生禁止性计算成本的前提下,高效地为每个测试样本选择最优的早期模型?
- RQ4所提出方法在多样化数据集和基线方法上的不确定性估计改进程度如何?
- RQ5当使用Platt缩放对不确定性估计进行校准后,改进效果是否依然成立?
主要发现
- 与基线Softmax响应相比,逐样本早停(PES)方法在CIFAR-100上将E-AURC降低了18.24%,在CIFAR-10上改善6.04%,在SVHN上改善9.41%,在ImageNet上改善2.34%。
- 近似早停(AES)方法在所有基线方法(包括集成方法)上均实现了稳定提升,且无需额外训练数据。
- AES在所有四个数据集上均优于所有评估方法(Softmax、熵、NN-distance、MC-Dropout、集成),且提升具有统计显著性。
- E-AURC指标与校准后性能高度相关,经负对数似然和Brier评分验证,确认AES同时改进了原始和校准后的不确定性估计。
- PES的计算成本较高,因其需对多个快照重复进行前向传播,从而凸显了AES等高效近似方法的必要性。
- 研究表明,训练过程中的置信度退化是一个系统性问题,类似于过拟合,而早期快照可有效缓解此类偏差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。