Skip to main content
QUICK REVIEW

[论文解读] Confidence-Aware Learning for Deep Neural Networks

Jooyoung Moon, Jihyo Kim|arXiv (Cornell University)|Jul 3, 2020
Anomaly Detection Techniques and Applications被引用 47
一句话总结

本文提出 Correctness Ranking Loss (CRL),用于训练标准深度分类器,使其置信度估计具有良好排序性且更可靠,无需额外的架构改动或高计算开销,从而提升校准、OOD 发现和主动学习。

ABSTRACT

Despite the power of deep neural networks for a wide range of tasks, an overconfident prediction issue has limited their practical use in many safety-critical applications. Many recent works have been proposed to mitigate this issue, but most of them require either additional computational costs in training and/or inference phases or customized architectures to output confidence estimates separately. In this paper, we propose a method of training deep neural networks with a novel loss function, named Correctness Ranking Loss, which regularizes class probabilities explicitly to be better confidence estimates in terms of ordinal ranking according to confidence. The proposed method is easy to implement and can be applied to the existing architectures without any modification. Also, it has almost the same computational costs for training as conventional deep classifiers and outputs reliable predictions by a single inference. Extensive experimental results on classification benchmark datasets indicate that the proposed method helps networks to produce well-ranked confidence estimates. We also demonstrate that it is effective for the tasks closely related to confidence estimation, out-of-distribution detection and active learning.

研究动机与目标

  • 在深度神经网络中动机需求可靠的置信度估计,尤其在安全关键应用中。
  • 提出一个直接强制置信度估计的序排序目标,而不进行架构改变。
  • 开发 Correctness Ranking Loss (CRL),并展示其如何与标准交叉熵训练结合。
  • 展示 CRL 在图像分类基准上的有效性及其对相关任务如异常检测和主动学习的影响。

提出的方法

  • 定义一个序排序目标,其中正确的概率更高的样本应具有更高的置信度。
  • 引入 Correctness Ranking Loss (CRL):L_CR = max(0, -g(c_i,c_j)(κ_i-κ_j) + |c_i-c_j|) 对成对样本,其中 c_i 是样本 i 的正确预测比例,κ_i 是置信度。
  • 在小批量中使用简单、可扩展的采样方案来近似 CRL,成对连续样本并对批次进行包裹。
  • 将 CRL 与标准交叉熵结合:L = L_CE + λ L_CR,其中 λ 控制 CRL 的影响。
  • 探索置信函数 κ,如最大类别概率、负熵(归一化)和边界。
  • 提供实现细节,使 CRL 可以应用于现有架构而不修改其结构。

实验结果

研究问题

  • RQ1简单的正则化损失(CRL)是否能在不改变架构的情况下使标准深度分类器产生良好排序的置信度估计?
  • RQ2CRL 如何影响置信度校准和序排序度量在常见图像分类数据集上的表现?
  • RQ3CRL 是否有益于下游任务,如异常检测和主动学习,超越分类准确率?
  • RQ4相对于传统训练,CRL 的计算开销有多大?

主要发现

  • CRL 在多个架构和数据集上产生良好排序的置信度估计。
  • 使用 CRL 训练在置信度相关指标(校准和排序)上具有竞争力或改进,相较于基线和其他不确定性估计方法。
  • CRL 在与置信度排序相关的任务上提升了表现,包括异常检测和主动学习,使用单次推断的标准分类器。
  • CRL 不需要架构修改,在训练和推理时额外计算成本很小。
  • 基于 CRL 的模型相对 Baseline 有所提升,在各种设置下与 MC dropout、aleatoric+MC、AES 等方法具有竞争力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。