[论文解读] Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism
Wise-IoU 引入一个动态非单调聚焦机制用于边框回归损失,通过将梯度更新聚焦在普通质量的锚框上并减少来自低质量样本的有害更新;应用于 YOLOv7,在 MS-COCO 上 AP75 从 53.03% 提升到 54.50%。
The loss function for bounding box regression (BBR) is essential to object detection. Its good definition will bring significant performance improvement to the model. Most existing works assume that the examples in the training data are high-quality and focus on strengthening the fitting ability of BBR loss. If we blindly strengthen BBR on low-quality examples, it will jeopardize localization performance. Focal-EIoU v1 was proposed to solve this problem, but due to its static focusing mechanism (FM), the potential of non-monotonic FM was not fully exploited. Based on this idea, we propose an IoU-based loss with a dynamic non-monotonic FM named Wise-IoU (WIoU). The dynamic non-monotonic FM uses the outlier degree instead of IoU to evaluate the quality of anchor boxes and provides a wise gradient gain allocation strategy. This strategy reduces the competitiveness of high-quality anchor boxes while also reducing the harmful gradient generated by low-quality examples. This allows WIoU to focus on ordinary-quality anchor boxes and improve the detector's overall performance. When WIoU is applied to the state-of-the-art real-time detector YOLOv7, the AP-75 on the MS-COCO dataset is improved from 53.03% to 54.50%. Code is available at https://github.com/Instinct323/wiou.
研究动机与目标
- 通过降低低质量训练样本的负面影响,推动更好的边框回归。
- 提出一个由锚框离群程度引导的动态非单调聚焦机制 (FM)。
- 将 Wise-IoU 损失整合到基于 IoU 的回归框架中。
- 在基于 MS-COCO 的实时检测器 YOLOv7 上评估改进。
- 提供消融研究以理解 FM 与动态归一化在 WIoU 中的作用。
提出的方法
- 通过将基于 IoU 的损失与动态非单调 FM 的组合来提出 Wise-IoU (WIoU)。
- 引入 L_WIoUv1,并使用注意力型惩罚项 R_WIoU 来放大普通质量框的 L_IoU。
- In2 结果中,L_WIoUv1 = R_WIoU * L_IoU,R_WIoU = exp(((x-x_gt)^2+(y-y_gt)^2)/(W_g^2+H_g^2)*);对 W_g, H_g 进行 detach 以避免梯度死锁。
- 通过对 L_WIoUv1 应用聚焦因子 gamma* 并用 L_IoU 的指数滑动平均进行归一化,开发单调变体 L_WIoUv2。
- 通过使用离群度 beta = L_IoU^* / L_IoU_bar 与梯度增益 r = beta/(delta*alpha^(beta-delta)),开发动态非单调变体 L_WIoUv3,旨在使梯度增益在最优 beta (C) 处最大化。
- 将 WIoU v3 应用于 MS-COCO 实验中的 YOLOv7-w6,并与 SIoU、EIoU、Focal-EIoU 基线进行对比。
实验结果
研究问题
- RQ1动态非单调聚焦是否比静态非单调聚焦更能改善边框回归?
- RQ2通过按锚框离群程度加权梯度增益,如何影响普通质量、较高质量和较低质量样本的学习?
- RQ3WIoU 的 v1、v2、v3 在像 YOLOv7 这样的实时检测器上的 COCO 指标性能影响如何?
- RQ4动态归一化聚焦因子是否在提升泛化的同时维持收敛速度?
主要发现
- WIoU v3 具有动态非单调 FM 时在被测试的损失中表现最好。
- 应用动态 FM 有助于屏蔽低质量样本并聚焦于普通质量锚框,从而改善定位。
- WIoU v3 在若干配置下获得最大 AP 增益,例如在某些设置下 AP75 提升高达 1.68 点相对于 CIoU 基线。
- 在 MS-COCO 上,WIoU v3 采用 alpha=1.9 和 delta=3 时达到 AP75 54.50,优于 CIoU 与 SIoU 基线。
- WIoU v2 与 WIoU v3 显示单调聚焦 FM 可能因损失而增减效果,而动态非单调 FM 对 WIoU v3 总是有益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。