Skip to main content
QUICK REVIEW

[论文解读] MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression

Siliang Ma, Yong Xu|arXiv (Cornell University)|Jul 14, 2023
Advanced Neural Network Applications被引用 217
一句话总结

本文提出 MPDIoU,一种基于 IoU 的新损失用于边界框回归,结合最小点距离以提高收敛速度和精度,并在目标检测、场景文本识别和实例分割基准上证明其优越性。

ABSTRACT

Bounding box regression (BBR) has been widely used in object detection and instance segmentation, which is an important step in object localization. However, most of the existing loss functions for bounding box regression cannot be optimized when the predicted box has the same aspect ratio as the groundtruth box, but the width and height values are exactly different. In order to tackle the issues mentioned above, we fully explore the geometric features of horizontal rectangle and propose a novel bounding box similarity comparison metric MPDIoU based on minimum point distance, which contains all of the relevant factors considered in the existing loss functions, namely overlapping or non-overlapping area, central points distance, and deviation of width and height, while simplifying the calculation process. On this basis, we propose a bounding box regression loss function based on MPDIoU, called LMPDIoU . Experimental results show that the MPDIoU loss function is applied to state-of-the-art instance segmentation (e.g., YOLACT) and object detection (e.g., YOLOv7) model trained on PASCAL VOC, MS COCO, and IIIT5k outperforms existing loss functions.

研究动机与目标

  • 动机:需要一种比传统的 IoU 和 L-范数损失更具信息量的边界框回归损失。
  • 提出 MPDIoU 作为一种基于 IoU 的相似性度量,它包含最小点距离惩罚。
  • 开发一种实用、易于计算的基于 MPDIoU 的回归损失,并展示其在现有模型中的集成。
  • 在多样的二维视觉任务和标准数据集上展示 MPDIoU 的经验提升。

提出的方法

  • 将 MPDIoU 定义为 IoU 减去基于预测框与真实框的左上角和右下角之间平方距离的惩罚项,按图像大小归一化。
  • 给出在坐标轴对齐矩形之间计算 MPDIoU 的算法,并推导出边界框回归的 MPDIoU 损失为 L_MPDIoU = 1 - MPDIoU。
  • 证明 MPDIoU 能区分两边框具有相同 IoU 但角点对齐不同的情形,从而改进回归引导。
  • 在 YOLOv7 和 YOLACT 中用 L_MPDIoU 替换基线回归损失以评估性能提升。
  • 建立从角坐标到 MPDIoU 分量的转换公式和因子(面积、中心、宽度、高度)。

实验结果

研究问题

  • RQ1当边界框具有相同的纵横比但宽度/高度不同时,MPDIoU 是否能提供比现有基于 IoU 的损失更具信息性的梯度信号?
  • RQ2将 MPDIoU 集成到最先进的检测器中,是否能在目标检测、实例分割和场景文本识别基准上提升定位精度和收敛性?
  • RQ3在如 PASCAL VOC、MS COCO、IIIT5k、MTHv2 等标准数据集上,MPDIoU 相对于 GIoU、DIoU、CIoU、EIoU 的表现如何?
  • RQ4当边界框不相交时,MPDIoU 是否稳健,并且是否鼓励更紧凑、重复性更少的预测?

主要发现

  • 基于 MPDIoU 的回归在 VOC 和 COCO 上的 YOLOv7 与 YOLACT 对比多种 IoU 基损失时提升了准确性。
  • MPDIoU 展现出在目标检测、字符级场景文本识别和实例分割方面更快的收敛和更高的性能。
  • 在 VOC、COCO、IIIT5k、MTHv2 上的实验显示 MPDIoU 相对于 GIoU、DIoU、CIoU 以及 EIoU 损失取得有利结果。
  • MPDIoU 损失保持有界,即使 IoU 为零也能提供信息量充足的梯度,因为存在角点距离惩罚。
  • 定理 3.1 断言当纵横比匹配时,位于地面真值内的预测框将产生比位于外部的预测框更低的 L_MPDIoU,从而偏向更紧凑的定位。
  • 实证结果表明 MPDIoU 在评估任务中的 AP75 及相关指标上有显著改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。