Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss

Xue Yang, Junchi Yan|arXiv (Cornell University)|Jan 28, 2021
Advanced Neural Network Applications参考文献 82被引用数 204
ひとこと要約

この論文は、回転ボックスを 2 次元ガウス分布としてモデル化することにより、角度回帰ベースの回転損失をガウス Wasserstein 距離 (GWD) 損失に置換し、境界の不連続性と正方形様問題を緩和し、様々な境界ボックス定義に対して微分可能で計量一貫性のある回帰を実現する。

ABSTRACT

Boundary discontinuity and its inconsistency to the final detection metric have been the bottleneck for rotating detection regression loss design. In this paper, we propose a novel regression loss based on Gaussian Wasserstein distance as a fundamental approach to solve the problem. Specifically, the rotated bounding box is converted to a 2-D Gaussian distribution, which enables to approximate the indifferentiable rotational IoU induced loss by the Gaussian Wasserstein distance (GWD) which can be learned efficiently by gradient back-propagation. GWD can still be informative for learning even there is no overlapping between two rotating bounding boxes which is often the case for small object detection. Thanks to its three unique properties, GWD can also elegantly solve the boundary discontinuity and square-like problem regardless how the bounding box is defined. Experiments on five datasets using different detectors show the effectiveness of our approach. Codes are available at https://github.com/yangxue0827/RotationDetection and https://github.com/open-mmlab/mmrotate.

研究の動機と目的

  • 既存の回転検出器の核となる欠陥を識別する:計量損失の一貫性の欠如、境界の不連続性、そして正方形のような問題。
  • 箱間の IoU を近似するためのガウスWasserstein距離に基づく統一的で微分可能な損失を提案する。
  • GWD ベースの回帰が境界ボックス定義に対して頑健で、複数データセットで検出を改善することを示す。
  • 適用と再現を促進するオープンソースのコードを提供する。

提案手法

  • 回転境界ボックス B(x, y, w, h, theta) を平均 m=(x,y) と共分散 Sigma によって 2D ガウス分布へ変換し、Sigma は w, h, theta から導出される。
  • ガウス間のガウス Wasserstein 距離 d を d^2 = ||m1 - m2||^2 + Tr(Sigma1 + Sigma2 - 2(Sigma1^1/2 Sigma2 Sigma1^1/2)^1/2) によって定義する。
  • d^2 を非線形関数 f とハイパーパラメータ tau を通して変換し、1/(tau + f(d^2)) に相当する微分可能なアフィニティを得て、IoU に基づく損失 L_gwd = 1 - 1/(tau + f(d^2)) の形にする。
  • L_gwd を RetinaNet のマルチタスク枠組みに統合し、回帰ターゲットと分類のフォーカル損失を用いる。
  • Sigma^1/2(w,h,theta) が D_oc と D_le の表現を GWD の下で同値にする性質を満たすことを示し、ボックス定義感度を低減する。
  • HRSC2016、UCAS-AOD、DOTA、MLT、ICDAR2015 などのデータセットを横断したアブレーション研究を提供し、GWD 使用時の改善を示す。

実験結果

リサーチクエスチョン

  • RQ1Gaussian Wasserstein distance は回転 IoU 損失の微分可能で IoU 一貫性のある代理手段を提供できるか。
  • RQ2回転ボックスを 2D ガウスとしてモデリングすることは、境界の不連続性と正方形様の問題をボックス定義に依存せず解決できるか。
  • RQ3GWD ベースの回帰は従来の Smooth L1 損失と比較して多様なデータセットと検出器でどう機能するか。
  • RQ4提案された GWD 損失は OpenCV D_oc と long-edge D_le の異なるパラメータ化に対して頑健か。

主な発見

  • GWD ベースの回帰は DOTA、HRSC2016、UCAS-AOD などで Smooth L1 損失を置換することで mAP を改善する。
  • GWD は非重なりボックス (IoU=0) に対しても情報を保持する微分可能な代替手段を提供する。
  • GWD は境界の不連続性と正方形様の問題を自然に緩和し、使用される境界ボックス定義に対してほぼ鈍感である。
  • アブレーションは検出器(RetinaNet、R3Det)とバックボーン(R-50、R-101、R-152)での訓練テクニックの組み合わせにより性能向上を示す。
  • 5つの公開データセットと2つの検出器にまたがる広範な実験で手法の有効性を検証。
  • 結果を再現するためのコードが公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。