[论文解读] Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss
该论文通过将旋转框建模为二维高斯分布,用高斯 Wasserstein 距离(GWD)损失来替代基于角度回归的旋转损失,从而实现可微、度量一致的回归,在不同边界框定义下缓解边界不连续性和方形化问题。
Boundary discontinuity and its inconsistency to the final detection metric have been the bottleneck for rotating detection regression loss design. In this paper, we propose a novel regression loss based on Gaussian Wasserstein distance as a fundamental approach to solve the problem. Specifically, the rotated bounding box is converted to a 2-D Gaussian distribution, which enables to approximate the indifferentiable rotational IoU induced loss by the Gaussian Wasserstein distance (GWD) which can be learned efficiently by gradient back-propagation. GWD can still be informative for learning even there is no overlapping between two rotating bounding boxes which is often the case for small object detection. Thanks to its three unique properties, GWD can also elegantly solve the boundary discontinuity and square-like problem regardless how the bounding box is defined. Experiments on five datasets using different detectors show the effectiveness of our approach. Codes are available at https://github.com/yangxue0827/RotationDetection and https://github.com/open-mmlab/mmrotate.
研究动机与目标
- 识别现有旋转检测器的核心缺陷:度量损失不一致、边界不连续性和方形化问题。
- 提出基于高斯 Wasserstein 距离的统一、可微分损失,用以近似盒之间的旋转 IoU。
- 证明基于 GWD 的回归对边界框定义具有鲁棒性,并在不同数据集上提升检测性能。
- 提供开源代码,促进采用和复现实验。
提出的方法
- 将旋转边界框 B(x, y, w, h, theta) 转换为二维高斯分布,均值 m=(x,y),协方差 Sigma 由 w, h, theta 推导而来。
- 通过 d^2 = ||m1 - m2||^2 + Tr(Sigma1 + Sigma2 - 2(Sigma1^1/2 Sigma2 Sigma1^1/2)^1/2) 定义两个高斯之间的高斯Wasserstein距离 d。
- 通过非线性函数 f 和超参数 tau 将 d^2 转换为一个可微的亲和度 1/(tau + f(d^2)),类似于 IoU 基损失 L_gwd = 1 - 1/(tau + f(d^2))。
- 将 L_gwd 集成到带回归目标和分类焦点损失的 RetinaNet 多任务框架中。
- 证明 Sigma^1/2(w,h,theta) 满足在 GWD 下使 D_oc 和 D_le 表示等价的性质,降低边界框定义的敏感性。
- 提供跨数据集(HRSC2016、UCAS-AOD、DOTA、MLT、ICDAR2015 等)的消融研究,显示使用 GWD 时的改进。
实验结果
研究问题
- RQ1高斯Wasserstein距离能否提供一个可微且与 IoU 一致的旋转 IoU 损失代理?
- RQ2将旋转框建模为二维高斯是否能够在不依赖边界框定义的情况下解决边界不连续性和方形化问题?
- RQ3与传统的 Smooth L1 损失相比,GWD 基回归在多样数据集和检测器上的表现如何?
- RQ4所提的 GWD 损失对不同的边界框参数化(OpenCV D_oc 与 long-edge D_le)是否鲁棒?
主要发现
- 在多个数据集上用 GWD 回归替代 Smooth L1 损失时提升了 mAP(例如在 DOTA、HRSC2016、UCAS-AOD)。
- GWD 提供了一个可微的代理,即使在非重叠框(IoU=0)时也仍然有信息。
- GWD 自然缓解边界不连续性和方形化问题,并且在很大程度上对所使用的边界框定义不敏感。
- 消融研究显示在检测器(RetinaNet、R3Det)和骨干网络(R-50、R-101、R-152)上均有收益,并通过各种训练技巧提升性能。
- 在五个公开数据集和两个检测器上的广泛实验验证了该方法的有效性。
- 代码公开可获取以复现实验结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。