[论文解读] Understanding Softmax Confidence and Uncertainty
本文分析 softmax 确信度在何时与 epistemic 不确定性相关,识别有助于 softmax 与不确定性对齐的两种隐性偏差,并提供诊断性实验,表明 softmax 失败主要源于最终层特征重叠而非外推。
It is often remarked that neural networks fail to increase their uncertainty when predicting on data far from the training distribution. Yet naively using softmax confidence as a proxy for uncertainty achieves modest success in tasks exclusively testing for this, e.g., out-of-distribution (OOD) detection. This paper investigates this contradiction, identifying two implicit biases that do encourage softmax confidence to correlate with epistemic uncertainty: 1) Approximately optimal decision boundary structure, and 2) Filtering effects of deep networks. It describes why low-dimensional intuitions about softmax confidence are misleading. Diagnostic experiments quantify reasons softmax confidence can fail, finding that extrapolations are less to blame than overlap between training and OOD data in final-layer representations. Pre-trained/fine-tuned networks reduce this overlap.
研究动机与目标
- 解释为什么 softmax 确信度有时可以作为 OOD 检测中 epistemic 不确定性的代理。
- 描述 softmax 层的不确定区域和决策边界结构。
- 解释使 softmax 与不确定性相关的隐性偏差:最优边界结构与深度网络过滤特征。
- 通过预训练或微调来评估 softmax 基于不确定性的失败模式及其缓解方法的经验诊断。
提出的方法
- 对 softmax 最终层进行分析性表征并定义有效 OOD 区域(Theorem 1, Def. 1)。
- 推导近似最优的决策边界结构(Definition 2)并提供训练网络近似该结构的经验证据(Figure 4)。
- 将最终层激活建模为与权重向量对齐的任务特定特征簇(||z||,cos theta)。
- 在最终层激活上使用高斯混合密度来估计分布内密度与不确定性(U_density)。
- 用于测试边界结构对 OOD 检测影响的诊断性实验:冻结 softmax 权重(Figure 5)。
- 分析深度网络作为过滤器,强调任务相关特征,并降低 OOD 输入的激活幅度(Figure 6,Eq. 6)。
实验结果
研究问题
- RQ1在什么条件下 softmax 确信度能可靠指示用于 OOD 检测的 epistemic 不确定性?
- RQ2softmax 决策边界的结构如何影响 OOD 检测性能?
- RQ3深度网络中存在哪些隐性偏差使 softmax 确信度与不确定性相关?
- RQ4最终层特征表示在多大程度上对 OOD 信息进行过滤或重叠,预训练如何影响这一点?
- RQ5softmax 在不确定性估计中的主要失败原因是什么,预训练是否可以缓解?
主要发现
- softmax 确信度在两种隐性偏差下可能与 epistemic 不确定性相关:近似最优的决策边界结构和深度网络作为任务特定特征的过滤器。
- 最优边界结构具有等权、零偏置的权重向量均匀分布,使 cos theta 对所有 i ≠ j 的值等于 -1/(K-1)(在训练网络中经验观察到,Figure 4)。
- 在最优结构下有效的 OOD 区域体积更大,提升 OOD 检测性能(理论推论与 Figure 3)。
- OOD 数据的最终层激活幅值通常较小且与权重向量的对齐不那么熟悉,导致 softmax 确信度降低(Eq. 6;Figure 6)。
- 深度网络的深度和预训练有助于缓解失败原因;预训练网络在 OOD 检测上接近完美的 AUROC,并在很大程度上避免特征重叠(表 1,文本描述)。
- 一个简单的心理模型 U_max mental 捕捉到,当特征幅度较低且与权重向量的角度不熟悉时,不确定性上升(Eq. 7)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。