Skip to main content
QUICK REVIEW

[论文解读] Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection.

Yihui He, Xiangyu Zhang|arXiv (Cornell University)|Sep 23, 2018
Advanced Neural Network Applications参考文献 34被引用 65
一句话总结

本文提出了一种名为 Softer-NMS 的新型边界框回归损失,通过联合学习定位方差与变换,以提升目标检测的准确性。通过在改进的 NMS 中利用该方差,其在 MS-COCO 上使用 VGG-16 Faster R-CNN 时将 AP 从 23.6% 提升至 29.1%,并在 ResNet-50 FPN Faster R-CNN 上将 AP 从 36.8% 提升至 37.8%,以极低的计算成本实现了最先进的定位精炼效果。

ABSTRACT

Non-maximum suppression (NMS) is essential for state-of-the-art object detectors to localize object from a set of candidate locations. However, accurate candidate location sometimes is not associated with a high classification score, which leads to object localization failure during NMS. In this paper, we introduce a novel bounding box regression loss for learning bounding box transformation and localization variance together. The resulting localization variance exhibits a strong connection to localization accuracy, which is then utilized in our new non-maximum suppression method to improve localization accuracy for object detection. On MS-COCO, we boost the AP of VGG-16 faster R-CNN from 23.6% to 29.1% with a single model and nearly no additional computational overhead. More importantly, our method is able to improve the AP of ResNet-50 FPN fast R-CNN from 36.8% to 37.8%, which achieves state-of-the-art bounding box refinement result.

研究动机与目标

  • 解决在高精度边界框分类得分较低时,非极大值抑制(NMS)在目标定位中失效的问题。
  • 通过建模定位方差与检测置信度之间的关系,提升定位准确性。
  • 开发一种新型 NMS 变体,利用学习到的定位方差更有效地抑制定位不准确的候选框。
  • 在计算开销极低的前提下,实现最先进的边界框精炼效果。

提出的方法

  • 提出一种新的边界框回归损失,联合优化边界框变换与定位方差。
  • 将定位方差建模为与实际定位准确性强相关性的可学习组件。
  • 在推理过程中使用预测的方差来加权 NMS 中的抑制决策,优先保留更准确的框。
  • 修改标准 NMS 机制,采用基于 IoU 的抑制策略,并以预测定位方差的倒数进行加权。
  • 端到端训练模型,以提升分类与定位的鲁棒性。
  • 将该方法应用于标准检测器(如 Faster R-CNN 和 Faster R-CNN with FPN),无需架构改动。

实验结果

研究问题

  • RQ1在训练过程中学习定位方差是否能提升目标检测中 NMS 的鲁棒性?
  • RQ2学习到的方差度量是否比仅使用分类得分更能反映实际定位准确性?
  • RQ3是否可以通过引入方差感知的 NMS 机制,在不增加推理成本的前提下减少定位误差?
  • RQ4与标准 NMS 相比,该方法在标准基准上的 AP 和定位精度表现如何?

主要发现

  • Softer-NMS 在单个模型上将 VGG-16 Faster R-CNN 在 MS-COCO 上的 AP 从 23.6% 提升至 29.1%,且无额外计算开销。
  • 该方法在 ResNet-50 FPN Faster R-CNN 上实现了 1.0% 的 AP 提升,从 36.8% 提升至 37.8%,创下边界框精炼的新 SOTA 记录。
  • 学习到的定位方差与实际定位准确性具有强相关性,从而在 NMS 中实现更优的抑制决策。
  • 该改进仅带来极低的计算开销,具备在实际部署中的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。