[論文レビュー] H2RBox: Horizontal Box Annotation is All You Need for Oriented Object Detection
H2RBox は水平ボックス注釈を用い、弱監視・自己教師付き学習で向きオブジェクト検出を予測する。HBox監視法より低メモリ・高速度、RBox監視検出器に近づく競合的な結果を達成します。
Oriented object detection emerges in many applications from aerial images to autonomous driving, while many existing detection benchmarks are annotated with horizontal bounding box only which is also less costive than fine-grained rotated box, leading to a gap between the readily available training corpus and the rising demand for oriented object detection. This paper proposes a simple yet effective oriented object detection approach called H2RBox merely using horizontal box annotation for weakly-supervised training, which closes the above gap and shows competitive performance even against those trained with rotated boxes. The cores of our method are weakly- and self-supervised learning, which predicts the angle of the object by learning the consistency of two different views. To our best knowledge, H2RBox is the first horizontal box annotation-based oriented object detector. Compared to an alternative i.e. horizontal box-supervised instance segmentation with our post adaption to oriented object detection, our approach is not susceptible to the prediction quality of mask and can perform more robustly in complex scenes containing a large number of dense objects and outliers. Experimental results show that H2RBox has significant performance and speed advantages over horizontal box-supervised instance segmentation methods, as well as lower memory requirements. While compared to rotated box-supervised oriented object detectors, our method shows very close performance and speed. The source code is available at PyTorch-based \href{https://github.com/yangxue0827/h2rbox-mmrotate}{MMRotate} and Jittor-based \href{https://github.com/yangxue0827/h2rbox-jittor}{JDet}.
研究の動機と目的
- 入手しやすい水平ボックス注釈と、向きオブジェクト検出の需要のギャップを橋渡しする。
- RBoxラベルなしで物体の角度を学習する二分岐のH2RBoxフレームワークを提案する。
- H2RBox がHBox監視のインスタンスセグメンテーションのベースラインを上回り、精度と効率の点でRBox監視検出器に近づくことを示す。
提案手法
- 水平に外接する長方形を監督として用いる、WS版 FCOS に基づく回転検出器を用いた二分岐アーキテクチャ。
- 自己教師付き(SS)ブランチは入力ビューを回転させ、ビュー間でRBox予測の一貫性を強制する。
- ビュー生成時の地真角リークを避けるためのパディング/クロップ戦略(ゼロパディング、センタークロップ、反射パディング)。
- SSブランチのターゲットをWS予測と整合させるためのラベル再割り当て戦略(One-to-One、One-to-Many)。
- 結合損失 L_total = L_ws + lambda L_ss。分類、セントレンス、回帰、角度/スケールの一貫性を含む詳細項目。
実験結果
リサーチクエスチョン
- RQ1水平ボックス注釈は、RBoxラベルなしで方向付けられたオブジェクト検出器の効果的な訓練を可能にするか?
- RQ2水平ボックスデータから正確な回転予測を回復するために、弱監督学習と自己教師付き学習をどのように組み合わせることができるか?
- RQ3ビュー生成戦略とラベル再割り当てが、向き精度および全体の検出性能に与える影響は何か?
- RQ4精度・メモリ・速度の観点で、H2RBox はHBox監視のインスタンスセグメンテーションベースラインおよびRBox監視検出器とどのように比較されるか?
主な発見
- DOTA-v1.0 では、H2RBox は AP50 で BoxInst-RBox および BoxLevelSet-RBox をそれぞれ 14.31%、11.46% 上回し(67.90% 対 53.59%、56.44%)。
- H2RBox ではメモリ使用量が 6.25 GB、推論速度が 31.6 FPS、BoxInst-RBox の約1/3 のメモリ、12倍速、BoxLevelSet-RBox よりも大幅に高速。
- マルチスケール学習/テストにより、完全な RBox 監視 FCOS との差は DOTA-v1.0 で 0.91% に縮小(AP75: 74.40 vs 75.31)。
- DIOR-R では H2RBox は AP 33.15、AP50 57.00、AP75 32.60 を達成し、RBox監視 FCOS(AP 34.16、AP50 58.60、AP75 31.90)に近づく。
- アブレーションにより自己教師付き損失(L_ss)が必須であり、DOTA-v1.0 で低い値から 35.92%、DIOR-R で 33.15% へ著しく改善することを示す。
- HBX-Mask-RBox のベースライン(BoxInst-RBox, BoxLevelSet-RBox)は、テストデータセットで精度と効率の両方でH2RBoxに及ばない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。