[论文解读] Improved Trainable Calibration Method for Neural Networks on Medical Imaging Classification
本文提出了一种新颖的可训练校准方法——置信度与准确率之差(Difference in Confidence and Accuracy, DCA),在不牺牲分类准确率的前提下,提升了医学影像中神经网络的校准性能。通过添加DCA作为辅助损失,该方法在准确率趋于平稳时惩罚交叉熵损失的过拟合,平均在四个医学数据集和四种架构上将期望校准误差(Expected Calibration Error, ECE)降低65.72%,同时保持高准确率。
Recent works have shown that deep neural networks can achieve super-human performance in a wide range of image classification tasks in the medical imaging domain. However, these works have primarily focused on classification accuracy, ignoring the important role of uncertainty quantification. Empirically, neural networks are often miscalibrated and overconfident in their predictions. This miscalibration could be problematic in any automatic decision-making system, but we focus on the medical field in which neural network miscalibration has the potential to lead to significant treatment errors. We propose a novel calibration approach that maintains the overall classification accuracy while significantly improving model calibration. The proposed approach is based on expected calibration error, which is a common metric for quantifying miscalibration. Our approach can be easily integrated into any classification task as an auxiliary loss term, thus not requiring an explicit training round for calibration. We show that our approach reduces calibration error significantly across various architectures and datasets.
研究动机与目标
- 为解决深度神经网络在医学图像分类中普遍存在的校准问题,即模型对其预测过于自信。
- 通过减少预测置信度与实际准确率之间的差异,改善医学AI系统中的不确定性量化。
- 开发一种在显著提升模型校准性能的同时,仍保持高分类准确率的校准方法。
- 提供一种简单、可训练且可集成的校准解决方案,无需额外的训练轮次或复杂的后处理。
提出的方法
- 该方法引入一种名为置信度与准确率之差(Difference in Confidence and Accuracy, DCA)的辅助损失项,当交叉熵损失下降但准确率保持不变时,对模型进行惩罚。
- DCA被定义为每个预测概率区间内平均置信度与准确率之间的绝对差值,通过使用M个区间的ECE进行近似。
- DCA损失与标准交叉熵损失在训练过程中结合,实现端到端优化,无需额外的校准阶段。
- 该方法使用超参数β对DCA损失进行缩放,以平衡校准性能的提升与训练稳定性。
- 该方法与网络架构无关,可对任何神经网络分类器进行最小修改后应用。
实验结果
研究问题
- RQ1一种可训练的、端到端的校准方法是否能在不降低分类准确率的前提下,减少医学图像分类中的模型校准误差?
- RQ2DCA损失在多种医学影像数据集和网络架构上改善校准性能的效果如何?
- RQ3与现有校准技术相比,该方法是否能更好地恢复真实的基础概率分布?
- RQ4DCA方法的性能对超参数β的选择有多敏感?
主要发现
- 所提出的DCA方法在四个医学影像数据集和四种CNN架构上,平均将期望校准误差(ECE)从0.1006降低至0.0345,降幅达65.72%。
- 该方法保持了高分类准确率,未校准模型的准确率为83.08%,DCA校准后模型准确率为83.58%,性能未出现下降。
- t-SNE可视化显示,使用DCA学习到的特征更具类别判别性且分布更紧凑,尤其在Kather 5000数据集上表现优于温度缩放方法。
- DCA方法恢复的概率分布更贴近真实值的对角线,表明其校准效果优于未校准模型和温度缩放方法。
- 当β ≥ 10时,ECE对β值的敏感度较低,最优性能在β ∈ [10, 15]范围内于大多数数据集中表现最佳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。