[論文レビュー] Exploring Object Relation in Mean Teacher for Cross-Domain Detection
本稿では、対象ドメインのオブジェクト検出における一貫性正則化にオブジェクト関係を統合した、新しいMean TeacherフレームワークMTORを提案する。教師モデルと生徒モデル間の領域レベル、相互グラフ、および内部グラフの一貫性を強制することで、MTORは最先端の性能を達成し、Syn2Real検出ベンチマークで22.8% mAPという新しい1モデル記録を樹立した。
Rendering synthetic data (e.g., 3D CAD-rendered images) to generate annotations for learning deep models in vision tasks has attracted increasing attention in recent years. However, simply applying the models learnt on synthetic images may lead to high generalization error on real images due to domain shift. To address this issue, recent progress in cross-domain recognition has featured the Mean Teacher, which directly simulates unsupervised domain adaptation as semi-supervised learning. The domain gap is thus naturally bridged with consistency regularization in a teacher-student scheme. In this work, we advance this Mean Teacher paradigm to be applicable for cross-domain detection. Specifically, we present Mean Teacher with Object Relations (MTOR) that novelly remolds Mean Teacher under the backbone of Faster R-CNN by integrating the object relations into the measure of consistency cost between teacher and student modules. Technically, MTOR firstly learns relational graphs that capture similarities between pairs of regions for teacher and student respectively. The whole architecture is then optimized with three consistency regularizations: 1) region-level consistency to align the region-level predictions between teacher and student, 2) inter-graph consistency for matching the graph structures between teacher and student, and 3) intra-graph consistency to enhance the similarity between regions of same class within the graph of student. Extensive experiments are conducted on the transfers across Cityscapes, Foggy Cityscapes, and SIM10k, and superior results are reported when comparing to state-of-the-art approaches. More remarkably, we obtain a new record of single model: 22.8% of mAP on Syn2Real detection dataset.
研究の動機と目的
- 合成データで学習したモデルが実画像で性能を発揮できない、合成から実画像へのオブジェクト検出におけるドメインシフトを解決すること。
- 元々半教師付き学習を目的として開発されたMean Teacherフレームワークを、構造的オブジェクト関係を組み込むことで、クロスドメイン検出に拡張すること。
- オブジェクト提案の関係性グラフ構造にわたる一貫性を強制することで、ドメイン一般化を向上させること。
- クラス内グラフの一貫性による特徴の識別能向上を通じて、ターゲットドメインの検出における誤検出や誤位置特定を低減すること。
提案手法
- MTORは、領域特徴間のコサイン類似度を用いて、教師および生徒モデルごとに別個の関係性グラフを構築する。
- 対応する領域提案の検出予測(分類およびボクシングボックス回帰)を教師と生徒で一致させることで、領域レベルの一貫性を確保する。
- 教師と生徒の関係性グラフ間の構造的類似度を照合することで、相互グラフの一貫性を適用し、入力の摂動に対して強い耐性を発揮する。
- 生徒のグラフ内での同じクラスに属する領域同士の類似性を高めることで、クラス内変動を低減し、特徴の識別能を向上させる。
- ハイパーパrameter λ と α で制御される重み付き組み合わせにより、領域レベル、相互グラフ、および内部グラフの3つの一貫性損失を、エンドツーエンドで最適化する。
- 標準的なmAP指標を用いて、Cityscapes、Foggy Cityscapes、SIM10k間のクロスドメイン転送に対して評価する。
実験結果
リサーチクエスチョン
- RQ1Mean Teacherフレームワークにオブジェクト関係を統合することで、クロスドメインオブジェクト検出における一般化性能が向上するか?
- RQ2関係性グラフ構造(相互グラフ)への一貫性制約が、ドメインシフトに対するロバストネスに与える影響は何か?
- RQ3内部グラフの一貫性は、クラス内変動をどの程度低減させ、検出精度を向上させるか?
- RQ4領域レベルとグラフ構造的一致性の組み合わせは、合成から実画像への検出において、既存のドメイン適応手法を上回る性能を発揮するか?
主な発見
- MTORは、Syn2Real検出ベンチマークで22.8% mAPという、新しい1モデル記録を樹立し、先行手法を顕著に上回った。
- Cityscapes → Foggy Cityscapesの転送において、MTORは22.8% mAPを達成し、ドメインシフト下でも優れた一般化性能を示した。
- アブレーションスタディの結果、相互グラフおよび内部グラフの一貫性の両方が検出精度の向上に寄与しており、λ = 1.0 および α ≈ 0.98 の組み合わせで最良の性能を示した。
- 定性的な結果から、MTORはSource-onlyおよびDAベースラインが見逃していたオブジェクト(例:人物)を検出できていることが示された。
- 誤差解析の結果、MTORはDAと比較して、誤位置特定および背景上の誤検出を両方とも低減しており、正しく検出されたオブジェクト(IoU ≥ 0.5)の割合が高かった。
- 関係性グラフの可視化から、MTORはSource-onlyおよびDAよりもより識別的なクラス内類似性を学習していることが確認され、内部グラフの一貫性の有効性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。