QUICK REVIEW

[论文解读] From Black-box to White-box: Examining Confidence Calibration under different Conditions

Franziska Schwaiger, Maximilian Henne|arXiv (Cornell University)|Jan 8, 2021

Adversarial Robustness in Machine Learning参考文献 20被引用 2

一句话总结

本文通过对比非极大值抑制（NMS）前的白盒校准（使用NMS前的原始网络输出）与NMS后的黑盒校准，研究了NMS对目标检测模型置信度校准的影响。研究发现，NMS会降低校准性能，使原本校准良好的Faster R-CNN模型变为过度自信的模型，且不同模型架构和后处理阶段的校准表现差异显著。

ABSTRACT

Confidence calibration is a major concern when applying artificial neural networks in safety-critical applications. Since most research in this area has focused on classification in the past, confidence calibration in the scope of object detection has gained more attention only recently. Based on previous work, we study the miscalibration of object detection models with respect to image location and box scale. Our main contribution is to additionally consider the impact of box selection methods like non-maximum suppression to calibration. We investigate the default intrinsic calibration of object detection models and how it is affected by these post-processing techniques. For this purpose, we distinguish between black-box calibration with non-maximum suppression and white-box calibration with raw network outputs. Our experiments reveal that post-processing highly affects confidence calibration. We show that non-maximum suppression has the potential to degrade initially well-calibrated predictions, leading to overconfident and thus miscalibrated models.

研究动机与目标

分析非极大值抑制（NMS）对目标检测模型置信度校准的影响。
在COCO数据集上，对比使用NMS前原始模型输出的白盒校准与NMS后输出的黑盒校准。
评估模型架构（RetinaNet与Faster R-CNN）在NMS前后对校准行为的影响。
研究将空间和尺度信息（框中心坐标、高、宽）整合到校准映射中是否能提升校准性能。
评估基于直方图的校准在不同检测输出子集上的有效性。

提出的方法

本研究采用Faster R-CNN和RetinaNet作为基础目标检测模型，分别使用交叉熵损失和焦点损失进行训练。
白盒校准基于NMS前的原始网络输出执行，而黑盒校准则在NMS后使用不同的IoU阈值（0.5、0.6、0.75、0.9）进行。
基于直方图（HB）的校准应用于置信度分数，使用输出子集包括仅置信度（ˆp）、置信度加框中心（cx, cy）、置信度加尺度（h, w）以及完整特征集。
采用分箱方案对期望校准误差（ECE）进行调整，以衡量不同检测条件下校准偏差的程度。
实验在COCO数据集上进行，使用D-ECE（分歧ECE）评估在多个IoU阈值下的校准性能。
通过比较不同后处理阶段和模型架构下的校准性能，以隔离NMS对置信度可靠性的影响。

实验结果

研究问题

RQ1非极大值抑制（NMS）如何影响目标检测模型的置信度校准？
RQ2目标检测器的内在校准性能在白盒（NMS前）与黑盒（NMS后）场景下是否存在差异？
RQ3RetinaNet与Faster R-CNN等模型架构在NMS前后其校准行为有何不同？
RQ4将空间和尺度信息（cx, cy, h, w）整合在多大程度上能改善校准性能？
RQ5基于直方图的校准是否能有效校正白盒与黑盒设置下的校准偏差？

主要发现

NMS显著降低置信度校准性能，使原本校准良好的Faster R-CNN预测变为过度自信，D-ECE在IoU@0.75时从白盒的6.914%上升至黑盒的13.067%。
对于RetinaNet，白盒模型表现欠校准（在IoU@0.5时基准D-ECE为7.781%），但经过NMS后校准性能提升，D-ECE在基于直方图的校准后降至1.523%。
对于RetinaNet，使用NMS@0.9的黑盒模型在IoU@0.75时D-ECE最高（34.634%），表明抑制后出现严重校准偏差。
当仅使用置信度或置信度加框中心时，白盒校准优于黑盒校准；但当引入尺度特征时，黑盒模型表现略优。
整合框中心和尺度信息（cx, cy, h, w）可改善校准性能，尤其在白盒设置中，RetinaNet在IoU@0.75时D-ECE最高降低5.704%。
结果表明，NMS会改变模型的校准特性，且白盒模型校准后的输出在经过NMS后性能下降，提示需要采用替代的抑制策略。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。