QUICK REVIEW

[论文解读] Calibrating Deep Neural Networks using Focal Loss

Jishnu Mukhoti, Viveka Kulharia|arXiv (Cornell University)|Feb 21, 2020

Adversarial Robustness in Machine Learning参考文献 39被引用 87

一句话总结

该论文表明，使用 focal loss 训练能比交叉熵得到更校准的深度神经网络，并且将 focal loss 与温度缩放相结合可在不牺牲准确性的前提下达到最先进的校准水平。它还提供了一种针对每个样本的 gamma 选择策略，以实现自动化校准。

ABSTRACT

Miscalibration - a mismatch between a model's confidence and its correctness - of Deep Neural Networks (DNNs) makes their predictions hard to rely on. Ideally, we want networks to be accurate, calibrated and confident. We show that, as opposed to the standard cross-entropy loss, focal loss [Lin et. al., 2017] allows us to learn models that are already very well calibrated. When combined with temperature scaling, whilst preserving accuracy, it yields state-of-the-art calibrated models. We provide a thorough analysis of the factors causing miscalibration, and use the insights we glean from this to justify the empirically excellent performance of focal loss. To facilitate the use of focal loss in practice, we also provide a principled approach to automatically select the hyperparameter involved in the loss function. We perform extensive experiments on a variety of computer vision and NLP datasets, and with a wide variety of network architectures, and show that our approach achieves state-of-the-art calibration without compromising on accuracy in almost all cases. Code is available at https://github.com/torrvision/focal_calibration.

研究动机与目标

研究高容量 DNN 的误校准及其与在 cross-entropy 下的 NLL 过拟合之间的关系。
提出并分析 focal loss 作为一种提升校准的训练目标。
开发一个基于逐样本的 gamma 超参选择方法，以实现自动化的 gamma 选择。
在多样的数据集和架构上评估校准性能，并与现有校准方法进行比较。

提出的方法

在训练中用 focal loss 代替交叉熵，以提升预测分布的熵并降低过度自信。
推导并利用一个将 focal loss 与正则化的 KL 散度联系起来的上界，以证明隐式熵正则化。
基于每个样本的真实标签概率 7 0r 对每个样本来控制梯度大小的 gamma 调度，提出逐样本 gamma 选择策略。
在 CV 和 NLP 数据集上对校准 (ECE、AdaECE、Classwise-ECE) 和准确率进行经验评估，比较有无温度缩放；与 MMCE、Brier loss、以及标签平滑进行比较。
分析 focal loss 的梯度动态和隐式权重正则化，包括将 gamma、p（预测概率）和梯度范数相关的理论命题。

实验结果

研究问题

RQ1focal loss 相对于 cross-entropy 在不同数据集和架构上是否提高模型校准？
RQ2focal loss 如何影响对 NLL 的过拟合以及训练过程中的错误预测的置信度？
RQ3是否可以通过逐样本 gamma 调度在无需额外验证调优的情况下自动获得更好的校准？
RQ4与仅使用温度缩放相比，focal loss 对 OoD 检测和分布偏移鲁棒性的影响如何？

主要发现

Focal loss 在视觉和 NLP 任务的大量实验中相较于 cross-entropy、MMCE、Brier loss 和标签平滑具有更好的校准。
当与温度缩放结合时，focal-loss 训练的模型在保持准确性的同时实现了最先进的校准。
一个逐样本 gamma 策略（对低真实概率样本使用较高 gamma，其它情况较低 gamma）在无需额外验证的情况下改善了校准。
Focal loss 表现出隐式正则化：它会对过度自信的预测的梯度幅度进行适度约束，减少在错误分类样本上出现的峰值分布导致的校准失真。
使用 focal loss 训练的模型在 OoD 任务上具有更优的检测能力（更高的 AUROC）并在分布偏移下具有更鲁棒的校准，有时甚至优于单独的温度缩放。
本文提供了可操作的指南和关于通过包含 Lambert W 函数的闭式关系选择 gamma 的理论洞见，使得可以进行逐样本 gamma 选择。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。