[論文レビュー] Learning RoI Transformer for Detecting Oriented Objects in Aerial Images
この論文はRoI Transformerを紹介します。横方向のRoIから回転RoIを学習し、回転不変特徴を抽出して航空画像内の回転した物体を検出します。推論を効率化しつつ最先端の成果を達成します。
Object detection in aerial images is an active yet challenging task in computer vision because of the birdview perspective, the highly complex backgrounds, and the variant appearances of objects. Especially when detecting densely packed objects in aerial images, methods relying on horizontal proposals for common object detection often introduce mismatches between the Region of Interests (RoIs) and objects. This leads to the common misalignment between the final object classification confidence and localization accuracy. Although rotated anchors have been used to tackle this problem, the design of them always multiplies the number of anchors and dramatically increases the computational complexity. In this paper, we propose a RoI Transformer to address these problems. More precisely, to improve the quality of region proposals, we first designed a Rotated RoI (RRoI) learner to transform a Horizontal Region of Interest (HRoI) into a Rotated Region of Interest (RRoI). Based on the RRoIs, we then proposed a Rotated Position Sensitive RoI Align (RPS-RoI-Align) module to extract rotation-invariant features from them for boosting subsequent classification and regression. Our RoI Transformer is with light weight and can be easily embedded into detectors for oriented object detection. A simple implementation of the RoI Transformer has achieved state-of-the-art performances on two common and challenging aerial datasets, i.e., DOTA and HRSC2016, with a neglectable reduction to detection speed. Our RoI Transformer exceeds the deformable Position Sensitive RoI pooling when oriented bounding-box annotations are available. Extensive experiments have also validated the flexibility and effectiveness of our RoI Transformer. The results demonstrate that it can be easily integrated with other detector architectures and significantly improve the performances.
研究の動機と目的
- 航空画像における回転した物体や密集した物体の正確な検出を、水平RoIがアラインメントのずれを引き起こす場合に動機づける。
- HRoIsをRRoIsへ変換し回転不変特徴を抽出する、軽量でエンドツーエンド学習可能なRoI Transformerを提案する。
- 広範な回転アンカー手法と比較して計算量を削減しつつ精度を向上させる。
提案手法
- 小さな全結合回帰ヘッドを介してHRoIsを回転RoIsに変換するRRoI Learnerを導入する。
- RRoIsから回転不変特徴をプールするためにRotated Position Sensitive RoI Alignを適用する。
- RoIごとの計算を効率的に保つためにライトヘッドアーキテクチャを使用する。
- RRoIsとRRoTs(回転した真値)間のIoUベースのマッチングで監督を強化して学習する。
- 既存検出器への統合を可能にするエンドツーエンド微分可能なRoI Transformerを提供する。
実験結果
リサーチクエスチョン
- RQ1水平RoIsから回転RoIsへの学習変換は、航空画像中の回転物体とのアラインメントを改善できるのか?
- RQ2Rotated PS RoI Alignは回転不変特徴を提供し、回転物体の分類と位置推定を向上させるのか?
- RQ3DOTAとHRSC2016における精度と効率性の観点で、RoI TransformerはDeformable RoI poolingおよびベースラインのLight-Head検出器とどのように比較されるのか?
主な発見
| 手法 | mAP | 学習速度 | 推論速度 | パラメータ |
|---|---|---|---|---|
| LR-O | 58.3 | 0.403 s | 0.141 s | 273MB |
| DPSRP | 63.89 | 0.445 s | 0.206 s | 273.2MB |
| RoI Transformer | 67.74 | 0.475 s | 0.17 s | 273MB |
- RoI TransformerはDOTAおよびHRSC2016データセットで最先端または競争力のあるmAPを達成する。
- ベースラインのLight-Head OBBにRoI Transformerを追加すると、アブレーションで最大4.87ポイントのmAP向上。
- RoI Transformerは密集した物体や長細い物体の取り扱いが改善され、従来手法に比べ大幅な改善を示す(例:DOTAの船舶)。
- Deformable PS RoI poolingと比較して、RoI Transformerは回帰ターゲットを軽くし回転認識のアラインメントで高い精度を提供する。
- 推論速度とメモリは、他の回転ROIアプローチと比べて有利なままである(例:TITAN Xで1024x1024あたり約0.17秒)。
- RoI Transformerは他の検出器アーキテクチャへ容易に組み込むことができ、回転物体検出を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。