[論文レビュー] Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection
Strip R-CNN はバックボーンに逐次的な直交大きなストリップ畳み込みを導入し、ストリップ強化のローカリゼーションヘッドを追加して、リモートセンシングの高アスペクト比オブジェクト検出を改善し、DOTA その他のベンチマークで最先端を達成します。
While witnessed with rapid development, remote sensing object detection remains challenging for detecting high aspect ratio objects. This paper shows that large strip convolutions are good feature representation learners for remote sensing object detection and can detect objects of various aspect ratios well. Based on large strip convolutions, we build a new network architecture called Strip R-CNN, which is simple, efficient, and powerful. Unlike recent remote sensing object detectors that leverage large-kernel convolutions with square shapes, our Strip R-CNN takes advantage of sequential orthogonal large strip convolutions in our backbone network StripNet to capture spatial information. In addition, we improve the localization capability of remote-sensing object detectors by decoupling the detection heads and equipping the localization branch with strip convolutions in our strip head. Extensive experiments on several benchmarks, for example DOTA, FAIR1M, HRSC2016, and DIOR, show that our Strip R-CNN can greatly improve previous work. In particular, our 30M model achieves 82.75% mAP on DOTA-v1.0, setting a new state-of-the-art record. Our code will be made publicly available.Code is available at https://github.com/YXB-NKU/Strip-R-CNN.
研究の動機と目的
- リモートセンシング画像中の高アスペクト比(細長い)オブジェクトの検出改善を動機づける。
- 直交する大きなストリップ畳み込みをコア空間フィルターとして活用する、単純で効率的なアーキテクチャを提案する。
- 局所化と分類をデカップルし、長距離依存関係を捉えるために局所化ヘッドにストリップ畳み込みで強化して角度回帰を改善する。
- DOTA、FAIR1M、HRSC2016、DIOR を含む複数のリモートセンシングベンチマークで優れた性能を示す。
提案手法
- StripNet バックボーンとストリップベースの検出ヘッドを備えた Strip R-CNN アーキテクチャを導入する。
- ストリップモジュールを実装する:基本ブロック内で、横方向と縦方向の大きなストリップ畳み込みを逐次的に組み合わせ、深さ方向の正方形畳み込みを加える。
- 局所化(および角度)の予測を分類からデカップルし、長距離依存関係を捉えるために局所化ヘッドにストリップモジュールを適用する。
- 分類および角度ヘッドには共有の2層全結合設計を用い、局所化ヘッドはストリップ畳み込みで強化する。
- Lc、Ll、La 損失(分類クロスエントロピー、Smooth L1 局所化、Smooth L1 角度)でエンドツーエンドに訓練する。
- DOTA-v1.0/v1.5、FAIR1M-v1.0、HRSC2016、DIOR-R を単一スケール/マルチスケール設定で評価する。
実験結果
リサーチクエスチョン
- RQ1リモートセンシング画像における異なるアスペクト比を持つオブジェクトに対して、巨大なストリップ畳み込みは特徴表現にどのような影響を与えるか?
- RQ2ストリップ強化された局所化を用いて局所化(角度)を分類からデカップルすることで、姿勢および角度回帰精度は向上するか?
- RQ3従来の大カーネルや回転物体検出器と比べて、Strip R-CNN の派生は主要なリモートセンシングベンチマークで最先端の結果を達成するか?
主な発見
| モデル | #P | FLOPs | FPS | mAP (%) |
|---|---|---|---|---|
| ResNet-50 | 23.3M | 86.1G | 21.8 | 75.87 |
| LSKNet-S | 14.4M | 54.4G | 20.7 | 77.49 |
| PKINet-S | 13.7M | 70.2G | 12.0 | 78.39 |
| StripNet-S | 13.3M | 52.3G | 17.7 | 80.06 |
- StripNet-S と Strip R-CNN は、DOTA-v1.0 の単一スケール評価で 80.06% mAP を達成し、いくつかのバックボーンより高い。
- Strip R-CNN-S はアンサンブルで DOTA-v1.0 の mAP 82.75% に到達し、新しい最先端を設定。
- DOTA-v1.5 では、Strip R-CNN-S が単一スケール評価で 72.27% mAP を達成し、従来手法を上回った。
- FAIR1M-v1.0 で Strip R-CNN-S は 48.26% mAP を達成し、強力なベースラインと競合。
- HRSC2016 および DIOR-R では、Strip R-CNN-S は最先端または競争力のあるスコアを達成(例:HRSC2016 の VOC12 指標で 98.70%、DIOR-R で 68.70%)。
- アブレーション研究により、19x19 が全段階で最適なストリップカーネルサイズであることを特定し、横方向と縦方向のストリップ畳み込みを逐次的に組み合わせる必要性を検証した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。