Skip to main content
QUICK REVIEW

[論文レビュー] Learning Modulated Loss for Rotated Object Detection

Wen Qian, Xue Yang|arXiv (Cornell University)|Nov 19, 2019
Advanced Image and Video Retrieval Techniques参考文献 54被引用数 63
ひとこと要約

本論文は回転物体検出器における回転感度誤差を明らかにし、モジュレートされた回転損失と八パラメータ回帰でこれを解決し、DOTAで最先端の性能を達成するとともに良好な一般化を示した。

ABSTRACT

Popular rotated detection methods usually use five parameters (coordinates of the central point, width, height, and rotation angle) to describe the rotated bounding box and l1-loss as the loss function. In this paper, we argue that the aforementioned integration can cause training instability and performance degeneration, due to the loss discontinuity resulted from the inherent periodicity of angles and the associated sudden exchange of width and height. This problem is further pronounced given the regression inconsistency among five parameters with different measurement units. We refer to the above issues as rotation sensitivity error (RSE) and propose a modulated rotation loss to dismiss the loss discontinuity. Our new loss is combined with the eight-parameter regression to further solve the problem of inconsistent parameter regression. Experiments show the state-of-art performances of our method on the public aerial image benchmark DOTA and UCAS-AOD. Its generalization abilities are also verified on ICDAR2015, HRSC2016, and FDDB. Qualitative improvements can be seen in Fig 1, and the source code will be released with the publication of the paper.

研究の動機と目的

  • 回転物体検出の安定性と精度を向上させるため、損失の不連続性とパラメータ回帰の不整合を解決する。
  • 回転境界での損失不連続性とパラメータ間の単位不整合として、回転感度誤差(RSE)を定式化する。
  • 五パラメータモデルの学習を滑らかにするためのモジュレート回転損失を提案する。
  • 回帰の単位不整合を排除し安定性を向上させるために八パラメータ回帰を採用する。
  • DOTAでの最先端性能と、ICDAR2015、HRSC2016、UCAS-AODへの堅牢な転移を実証する。

提案手法

  • 五パラメータ(OpenCVスタイル)および八パラメータ境界箱表現を定義する。
  • 五パラメータモデルと回帰単位の不一致、および角度の周期性・幅高さの交換に起因する回転感度誤差(RSE)を特定する。
  • エッジ近傍の学習を滑らかにする対称性に基づく補正を組み込んだ標準的なL1様項とをブレンドするモジュレート回転損失(ell_mr)を導入する(式(4))。
  • 五パラメータ回帰に対して正規化座標とアスペクト比を用いたell_mrを表現する(式(5-4))。
  • 八パラメータモデルの残留的不連続性を、頂点順序をずらすell_8p_mrと3つのアライメントシナリオの最小値をとることで対処する(式(6))。
  • RSDetは八パラメータ回帰とell_mrを用いた RetinaNet-H上に構築され、安定に学習し、回転物体ベンチマークにおけるベースラインを上回ることを示す。

実験結果

リサーチクエスチョン

  • RQ1標準的な五パラメータまたは八パラメータ表現を使用した場合、訓練の不安定さと性能低下は何によって生じるのか?
  • RQ2モジュレート損失は角度の周期性や幅高さの交換によって生じる損失不連続を解決できるのか?
  • RQ3八パラメータ回帰は回帰の単位不一致を緩和し、回転ボックスの回帰安定性を改善するのか?
  • RQ4提案手法のRSDetはDOTAで最先端手法と比較してどのように性能を示し、他データセットへどの程度一般化するのか?

主な発見

MethodPLBDBRGTFSVLVSHTCBCSTSBFRAHASPHCmAP
FR-O [13]79.169.117.263.534.237.236.289.269.659.049.452.546.744.846.352.9
R 2 CNN [20]80.965.735.367.459.950.955.890.766.972.455.152.255.153.448.260.7
RRPN [21]88.571.231.759.351.956.257.390.872.867.456.752.853.151.953.661.0
RetinaNet-H+ResNet50 [10]88.974.540.158.063.150.663.690.977.976.448.355.950.760.234.262.2
RSDet+ResNet50 (ours)89.382.747.763.966.862.067.390.885.382.462.362.465.768.664.670.8
RSDet+ResNet101 (ours)89.882.948.665.269.570.170.290.585.683.462.563.965.667.268.072.2
RSDet+ResNet152 (ours)90.283.553.670.164.679.467.391.088.382.564.168.762.869.566.973.5
RSDet+ResNet152+Refine (ours)90.182.053.868.570.278.773.691.287.184.764.368.266.169.363.774.1
  • 五パラメータモデルとell_mrによりDOTAでResNet-50 RetinaNet-HのmAPが62.14から64.49へ向上。
  • 八パラメータ回帰とell_mrでさらにDOTAのmAPが66.77へ向上。
  • RSDetは八パラメータ回帰で学習の安定性が改善され(図7)、バックボーン間で精度が高い(ResNet-50/101/152)。
  • DOTAではResNet-152+Refineを用いたときのアブレーションでRSDetが74.1 mAPを達成し、RSDet系列は表3でRRPN、SCRDet、R3 Detなどの最先端手法を上回る。
  • ICDAR2015とHRSC2016は良好に一般化し、ell_mrと八パラメータ回帰によりベースラインよりよいAPを得ている(表5)。
  • UCAS-AODの結果はRSDetがPlaneとCarタスクでAPを96.50%まで達成し、既存手法を上回る(表6)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。