Skip to main content
QUICK REVIEW

[論文レビュー] Exploring Categorical Regularization for Domain Adaptive Object Detection

Chang-Dong Xu, Xing-Ran Zhao|arXiv (Cornell University)|Mar 20, 2020
Domain Adaptation and Few-Shot Learning参考文献 48被引用数 28
ひとこと要約

本稿では、画像レベルの多値分類とインスタンスレベルの予測一貫性を活用して重要な領域と困難に一致するインスタンスに注目することで、ドメイン適応型オブジェクト検出を向上させるカテゴリカル正則化フレームワークを提案する。DA Faster R-CNNにプラグインとして適用した結果、天候、シーン、スタイルの適応を含む複数のドメインシフト状況で最先端の性能を達成し、ベースライン比でmAPが最大2.0%向上した。

ABSTRACT

In this paper, we tackle the domain adaptive object detection problem, where the main challenge lies in significant domain gaps between source and target domains. Previous work seeks to plainly align image-level and instance-level shifts to eventually minimize the domain discrepancy. However, they still overlook to match crucial image regions and important instances across domains, which will strongly affect domain shift mitigation. In this work, we propose a simple but effective categorical regularization framework for alleviating this issue. It can be applied as a plug-and-play component on a series of Domain Adaptive Faster R-CNN methods which are prominent for dealing with domain adaptive detection. Specifically, by integrating an image-level multi-label classifier upon the detection backbone, we can obtain the sparse but crucial image regions corresponding to categorical information, thanks to the weakly localization ability of the classification manner. Meanwhile, at the instance level, we leverage the categorical consistency between image-level predictions (by the classifier) and instance-level predictions (by the detection head) as a regularization factor to automatically hunt for the hard aligned instances of target domains. Extensive experiments of various domain shift scenarios show that our method obtains a significant performance gain over original Domain Adaptive Faster R-CNN detectors. Furthermore, qualitative visualization and analyses can demonstrate the ability of our method for attending on the key regions/instances targeting on domain adaptation. Our code is open-source and available at \url{https://github.com/Megvii-Nanjing/CR-DA-DET}.

研究の動機と目的

  • 非移譲可能な背景ではなく、重要な画像領域と重要なインスタンスに注目することで、オブジェクト検出におけるドメインシフトを解決すること。
  • 画像レベル分類を用いて弱い局所化のオブジェクト概念を活用することで、ソースドメインとターゲットドメイン間の特徴の整合性を向上させること。
  • 画像レベルとインスタンスレベルの予測の一貫性を通じて、ターゲットドメインにおける困難に一致するインスタンスを自動で同定すること。
  • アーキテクチャの大幅な見直しを伴わずに、ドメイン適応型Faster R-CNN手法の性能を向上させ、プラグアンドプレイ統合を可能にすること。
  • 多様なドメインシフト状況における広範な実験と可視化を通じて、カテゴリカル正則化の有効性を検証すること。

提案手法

  • 検出バックボーンに画像レベルの多値分類器を接続し、オブジェクトレベルの概念を学習するとともに、弱教師付き局所化により重要な領域を暗黙的に局所化する。
  • ホリスティックなオブジェクト表現のドメイン間整合性を向上させるために、画像レベルのカテゴリカル正則化(ICR)を採用し、移譲不可能な背景からの干渉を低減する。
  • 画像レベル分類器の出力とインスタンスレベル検出ヘッドの予測の一貫性を強制することで、困難に一致する候補領域を特定するカテゴリカル一貫性正則化(CCR)を適用する。
  • インスタンスレベル特徴をRoIAlignで抽出し、画像レベル特徴をグローバル平均プーリングで取得することで、両レベルでの整合性最適化を可能にする。
  • 分類用のクロスエントロピー損失と予測整合性用の損失を組み合わせ、エンドツーエンドで訓練し、DA Faster R-CNNパイプラインにスムーズに統合する。
  • 特徴空間の整合性の定性的および定量的分析にt-SNEとEarth Mover’s Distance(EMD)を活用する。

実験結果

リサーチクエスチョン

  • RQ1画像レベルの多値分類は、ドメイン適応型検出における重要なオブジェクト領域の局所化を向上させることができるか?
  • RQ2画像レベルとインスタンスレベルの予測の一貫性を強制することで、異なるドメイン間で困難に一致するインスタンスの整合性が向上するか?
  • RQ3プラグアンドプレイ型の正則化フレームワークは、多様なドメインシフト状況において、既存のDA Faster R-CNN手法の性能を顕著に向上させることができるか?
  • RQ4本手法は、類似および相違するドメイン適応タスクにおいて、mAPおよび特徴空間の整合性の観点で最先端手法と比較してどのように差をつけるか?
  • RQ5正則化フレームワークは、背景ノイズではなくオブジェクト関連特徴に注目することで、ドメイン差をどの程度低減するか?

主な発見

  • 提案手法は、PASCAL VOCからClipart1kへの相違するドメイン適応タスクにおいて、ベースラインのDA-Faster R-CNN比でmAPが2.0%向上し、SW-Faster比でも1.5%向上した。
  • Foggy CityscapesおよびBDD100kデータセットでは、元のSW-Fasterベースラインを著しく上回り、天候およびシーン適応の両状況において堅牢性を示した。
  • t-SNEを用いた特徴可視化では、異なるドメインからの同じカテゴリに属する最も poorly matchedなペアですら、本手法がより良い整合性を達成していることが示された。
  • Earth Mover’s Distance(EMD)指標は、SW-Fasterの8.84からSW-Faster-ICR-CCRの8.15に低下し、特徴空間におけるドメイン差が低減したことを確認した。
  • 定性的な結果では、ソースドメインおよびターゲットドメインの両方で、関心のある主要オブジェクトがより正確にアクティベートされており、重要な領域への注目が向上している。
  • アーキテクチャの変更なしに、公開ベンチマークで最先端の性能を達成した。これにより、本手法がプラグアンドプレイコンponentとしての有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。