[論文レビュー] H2RBox-v2: Incorporating Symmetry for Boosting Horizontal Box Supervised Oriented Object Detection
H2RBox-v2 は対称性を用いた自己監視ブランチを導入し、対称性から物体の向きを学習するとともに、弱教師ありブランチで CircumIoU 損失を組み合わせて、弱教師ありの下で HBox ベースと RBox ベースの向き検出のギャップを埋める。
With the rapidly increasing demand for oriented object detection, e.g. in autonomous driving and remote sensing, the recently proposed paradigm involving weakly-supervised detector H2RBox for learning rotated box (RBox) from the more readily-available horizontal box (HBox) has shown promise. This paper presents H2RBox-v2, to further bridge the gap between HBox-supervised and RBox-supervised oriented object detection. Specifically, we propose to leverage the reflection symmetry via flip and rotate consistencies, using a weakly-supervised network branch similar to H2RBox, together with a novel self-supervised branch that learns orientations from the symmetry inherent in visual objects. The detector is further stabilized and enhanced by practical techniques to cope with peripheral issues e.g. angular periodicity. To our best knowledge, H2RBox-v2 is the first symmetry-aware self-supervised paradigm for oriented object detection. In particular, our method shows less susceptibility to low-quality annotation and insufficient training data compared to H2RBox. Specifically, H2RBox-v2 achieves very close performance to a rotation annotation trained counterpart -- Rotated FCOS: 1) DOTA-v1.0/1.5/2.0: 72.31%/64.76%/50.33% vs. 72.44%/64.53%/51.77%; 2) HRSC: 89.66% vs. 88.99%; 3) FAIR1M: 42.27% vs. 41.25%.
研究の動機と目的
- 対称性ベースの学習を用いて HBox 監視と RBox 監視の向き検出のギャップを埋める動機づけ。
- 反射対称性を利用して正確な角度注釈なしで物体の向きを学習。
- ランダム回転増強と互換性を持たせつつ、注釈ノイズとデータ不足への頑健性を向上。
提案手法
- Flip および rotate の整合性から物体の向きを学習する自己監視ブランチを導入。
- 弱教師ありブランチで rotated ground-truth ボックスに直接回帰を可能にする CircumIoU 損失を提案。
- 角度周期性と境界問題を扱う PSC 角度コーダと snap 損失を使用。
- 弱教師ありブランチ(HBox ベース)と自己監視対称ブランチを統合した単一の学習目標を維持。
- 推論時にはバックボーン、角度ヘッド、標準ヘッドのみを展開(マルチブランチの View 生成はなし)。
- PyTorch/MMRotate ベースの実装とオープンソースコードを提供。
実験結果
リサーチクエスチョン
- RQ1対称性ベースの自己監視は HBox 注釈だけで正確な向き角度を学習できるか?
- RQ2対称性を組み込むと、同じバックボーンの下で fully RBox 監視デ detectors に近い性能が得られるか?
- RQ3CircumIoU 損失はランダム回転増強と互換性があり、注釈ノイズに対してより頑健か?
- RQ4H2RBox-v2 は標準的な向き検出ベンチマークで H2RBox および RBox 監視ベースラインと比較してどうなるか?
主な発見
| 方法 | スケジュール | マルチスケール (MS) | 回転ランダム (RR) | 画像サイズ | FPS | AP50 |
|---|---|---|---|---|---|---|
| H2RBox-v2 (FCOS-based) | 1x | 960 | 31.6 | 71.46 | ||
| H2RBox-v2 (FCOS-based) | 1x | 1,024 | 29.1 | 72.31 | ||
| H2RBox-v2 (FCOS-based) | 3x | ✓ | ✓ | 1,024 | 29.1 | 74.29 |
| H2RBox-v2 (FCOS-based) | 1x | ✓ | 1,024 | 29.1 | 77.97 | |
| H2RBox-v2 (FCOS-based) | 1x | ✓ | ✓ | 1,024 | 29.1 | 78.25 |
| H2RBox-v2 (FCOS-based, Swin-T) | 1x | ✓ | ✓ | 1,024 | 24.0 | 79.39 |
| H2RBox-v2 (FCOS-based, Swin-B) | 1x | ✓ | ✓ | 1,024 | 12.4 | 80.61 |
- H2RBox-v2 は同じバックボーン下で複数のデータセット(例: DOTA 系列、HRSC、FAIR1M)で回転注釈付きの性能に近い。
- MS および RR と併用することで、H2RBox-v2 は RBox 監視 FCOS との差を AP50/AP75 指標で最小 0.13–0.46 ポイントまで縮める。
- CircumIoU 損失は回転された ground-truth ボックスで直接のボックス回帰を可能にし、ランダム回転増強を許容して頑健性を向上させる。
- 対称性駆動の自己監視ブランチは Flip および Rotate の整合性を介して安定した角度学習を提供し、PSC と snap 損失の助けを得る。
- H2RBox-v2 は注釈ノイズとデータ不足に対して頑健で、いくつかのベンチマークで H2RBox を上回り、FAIR1M では完全監視ベースラインをも上回る場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。