[论文解读] Bounding Box Regression with Uncertainty for Accurate Object Detection
论文引入 KL Loss 来联合学习边界框定位和每坐标的不确定性,并在 NMS 过程中引入方差投票以在保持计算几乎不变的前提下改善定位。
Large-scale object detection datasets (e.g., MS-COCO) try to define the ground truth bounding boxes as clear as possible. However, we observe that ambiguities are still introduced when labeling the bounding boxes. In this paper, we propose a novel bounding box regression loss for learning bounding box transformation and localization variance together. Our loss greatly improves the localization accuracies of various architectures with nearly no additional computation. The learned localization variance allows us to merge neighboring bounding boxes during non-maximum suppression (NMS), which further improves the localization performance. On MS-COCO, we boost the Average Precision (AP) of VGG-16 Faster R-CNN from 23.6% to 29.1%. More importantly, for ResNet-50-FPN Mask R-CNN, our method improves the AP and AP90 by 1.8% and 6.2% respectively, which significantly outperforms previous state-of-the-art bounding box refinement methods. Our code and models are available at: github.com/yihui-he/KL-Loss
研究动机与目标
- 说明在像 MS-COCO 这样的大型数据集上,真实框本质上存在歧义。
- 提出一种概率化的边界框回归损失(KL Loss),用于学习定位和不确定性。
- 通过在 NMS 期间使用方差感知的方法(var voting)来提升后处理效果。
- 在 MS-COCO 和 PASCAL VOC 2007 上,展示在多种检测器(VGG-16 Faster R-CNN、ResNet-50-FPN Mask R-CNN)上的改进。
- 证明所学习的不确定性具有可解释性并对下游任务有用。
提出的方法
- 将每个边界框坐标建模为独立的高斯分布,均值为 x_e,方差为 σ^2。
- 真实值被建模为 Dirac δ(σ -> 0)。
- 将回归损失定义为 P_D 与 P_Θ 的 KL 散度,得到 L_reg ∝ (x_g - x_e)^2/(2σ^2) + (1/2) log(σ^2)。
- 通过 α = log(σ^2) 参数化 σ 以稳定训练,使用 L_reg ∝ e^{-α}(x_g - x_e)^2/2 + α/2。
- 在 |x_g - x_e|>1 时,采用对大误差鲁棒的部分损失,类似 smooth L1。
- 对每个坐标预测 σ 以捕捉定位不确定性。
- 在 NMS 期间引入 var voting,通过 IoU 及其方差对相邻框进行加权,以细化最终框的位置。
- 提供一种使用学习到的定位置信度来调整坐标的 NMS 算法变体。
实验结果
研究问题
- RQ1一种基于概率的边界框回归损失是否能通过考虑注释歧义来改进定位?
- RQ2通过方差感知投票在后处理(NMS/soft-NMS)中学习每坐标的定位不确定性是否有助于细化检测?
- RQ3KL Loss 如何与现有检测头和跨数据集、主干网络的后处理技术相互作用?
- RQ4在引入 KL Loss 和 var voting 时,对 AP 及定位指标(AP、AP90 等)的经验影响是多少?
- RQ5所学的不确定性是否可解释且对需要定位置信心的下游任务有帮助?
主要发现
| AP | AP50 | AP75 | AP S | AP M | AP L | AR 1 | AR 10 | AR 100 |
|---|---|---|---|---|---|---|---|---|
| 23.6 | 44.6 | 22.8 | 6.7 | 25.9 | 36.3 | 23.3 | 33.6 | 34.3 |
| 24.8 | 45.6 | 24.6 | 7.6 | 27.2 | 37.6 | 23.4 | 39.2 | 42.2 |
| 26.4 | 47.9 | 26.4 | 7.4 | 29.3 | 41.2 | 25.2 | 36.1 | 36.9 |
| 27.8 | 48.0 | 28.9 | 8.1 | 31.4 | 42.6 | 26.2 | 37.5 | 38.3 |
| 29.1 | 49.1 | 30.4 | 8.7 | 32.7 | 44.3 | 26.2 | 42.5 | 45.5 |
- 仅 KL Loss 在 VGG-16 Faster R-CNN(MS-COCO)上将 AP 提升了 2.8%。
- KL Loss 配合 var voting 与 soft-NMS 在 MS-COCO 上取得最佳结果,在 VGG-16 Faster R-CNN 上达到 AP 29.1%。
- 在 ResNet-50-FPN Mask R-CNN 上,KL Loss + var voting + soft-NMS 将 AP 提升 1.8%,AP90 提升 6.2%。
- 方差投票通过按预测方差对相邻框加权来改进定位,从而提升高 IOU 指标(AP75、APM、APL)。
- KL Loss 在 VGG-16、ResNet-50-FPN 和 Mask R-CNN 上持续提升 AP,延迟增加很小(大约 2 ms,基于 GTX 1080 Ti)。
- 在 PASCAL VOC 2007 上,KL Loss 提高了 mAP,且 var voting 提供了进一步提升,特别是在较高重叠度指标如 AP90。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。