[論文レビュー] SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects
SCRDet は、小さくて混雑し、任意の向きの物体に対して多カテゴリ回転検出を提示し、細かなサンプリングのための SF-Net、監視付きアテンションのための MDA-Net、回転 IoU 強化損失を導入して回転物体検出を改善します。リモートセンシングと一般データセットで最先端の結果を達成します。
Object detection has been a building block in computer vision. Though considerable progress has been made, there still exist challenges for objects with small size, arbitrary direction, and dense distribution. Apart from natural images, such issues are especially pronounced for aerial images of great importance. This paper presents a novel multi-category rotation detector for small, cluttered and rotated objects, namely SCRDet. Specifically, a sampling fusion network is devised which fuses multi-layer feature with effective anchor sampling, to improve the sensitivity to small objects. Meanwhile, the supervised pixel attention network and the channel attention network are jointly explored for small and cluttered object detection by suppressing the noise and highlighting the objects feature. For more accurate rotation estimation, the IoU constant factor is added to the smooth L1 loss to address the boundary problem for the rotating bounding box. Extensive experiments on two remote sensing public datasets DOTA, NWPU VHR-10 as well as natural image datasets COCO, VOC2007 and scene text data ICDAR2015 show the state-of-the-art performance of our detector. The code and models will be available at https://github.com/DetectionTeamUCAS.
研究の動機と目的
- 航空画像と自然画像において、小さく、混雑した、任意の向きの物体の堅牢な検出を動機づける。
- 背景ノイズを抑制するアテンションと回転対応回帰を組み合わせた、特別に設計されたサンプリングを持つ検出器を開発する。
- 提案手法がリモートセンシングと自然画像データセットの両方にわたり一般化可能であることを実証する。
- 公開ベンチマーク(DOTA、NWPU VHR-10)で最先端の性能を達成し、COCO、VOC2007、ICDAR2015で競争力のある結果を示す。
提案手法
- 小さな物体向けに、アンカーのストライドを小さくし多層特徴融合を用いることで、細かなアンカ サンプリングと特徴融合を可能にする SF-Net を提案する。
- 画素およびチャネルのアテンションを備えた監視付き多次元アテンションネットワーク(MDA-Net)を導入し、背景ノイズを抑制し前景物体を強調する。
- 正確な回転境界ボックスのため、五パラメータ(x, y, w, h, theta)回帰と回転 NMS(R-NMS)を用いた回転対応ブランチを追加し、歪み IoU を使用する。
- 回転ボックスの境界不連続性に対処するため、IoU に基づく因子を滑らかなL1損失に組み込んで回帰損失を変更する。
- 回転ボックス回帰、アテンション監視、分類損失を組み合わせた多タスク損失で訓練する。
- リモートセンシング(DOTA、NWPU VHR-10)と自然画像データセット(COCO、VOC2007、ICDAR2015)の両方で検証して一般性を示す。
実験結果
リサーチクエスチョン
- RQ1マルチカテゴリのリモートセンシング環境で、小さな物体をより効果的にサンプリング・局在するにはどうすればよいか?
- RQ2混雑したノイズの多い背景で、監視付きアテンション機構は検出性能を改善できるか?
- RQ3IoU 強化回転損失は、任意の向きの境界ボックスの回帰を安定させ、改善するか?
- RQ4提案されたコンポーネントはリモートセンシングを超える自然画像データセットに一般化できるか?
- RQ5向き境界ボックスと水平方向境界ボックスの標準ベンチマークにおける SCRDet の全体的な性能向上は何か?
主な発見
- SCRDet は提案設定で DOTA の OBB 検出において最先端の性能を達成し、mAP は 72.61% である。
- NWPU VHR-10 の水平境界ボックス検出で、公開済み手法の中で最高の性能を達成し、mAP は 91.75%。
- アブレーション実験で、MDA-Net はノイズを抑制し物体の手掛かりを強調することで有意な改善をもたらし、DOTA で約 3.7 ポイント程度の mAP 増加を達成。
- SF-Net は小さな物体で顕著な改善をもたらし、総合 mAP が最も高くなる(1つのアブレーションで 68.89%)。
- IoU-smooth L1 損失は回転境界の不連続性に対処し、検出精度を向上させる(アブレーションで最大 69.83% の mAP など)。
- 自然画像データセットでは、SCRDet 増強のベースライン(例:R2CNN)が単一スケールの mAP を高く達成し(例:ICDAR2015 で 80.08%)、手法の一般性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。