Skip to main content
QUICK REVIEW

[論文レビュー] Harmonizing Transferability and Discriminability for Adapting Object Detectors

Chaoqi Chen, Zebiao Zheng|arXiv (Cornell University)|Mar 13, 2020
Adversarial Robustness in Machine Learning参考文献 77被引用数 23
ひとこと要約

本稿では、局所領域、インスタンス、画像の3レベルで特徴表現を階層的に補正することで、オブジェクト検出のための教師なしドメイン適応における転送可能性と判別可能性を調和する、新しいフレームワークである階層的転送可能性補正ネットワーク(HTCN)を提案する。HTCNは、入力の補間を伴う重要度重み付き敵対的訓練、テンソル畳み込みを用いた文脈を考慮したインスタンスレベルのアライメント、および教師なしの局所特徴マスクを用いることで性能を向上させ、Cityscapes→Foggy-Cityscapesで39.8%、Sim10K→Cityscapesで42.5%の最先端(SOTA)mAPを達成した。

ABSTRACT

Recent advances in adaptive object detection have achieved compelling results in virtue of adversarial feature adaptation to mitigate the distributional shifts along the detection pipeline. Whilst adversarial adaptation significantly enhances the transferability of feature representations, the feature discriminability of object detectors remains less investigated. Moreover, transferability and discriminability may come at a contradiction in adversarial adaptation given the complex combinations of objects and the differentiated scene layouts between domains. In this paper, we propose a Hierarchical Transferability Calibration Network (HTCN) that hierarchically (local-region/image/instance) calibrates the transferability of feature representations for harmonizing transferability and discriminability. The proposed model consists of three components: (1) Importance Weighted Adversarial Training with input Interpolation (IWAT-I), which strengthens the global discriminability by re-weighting the interpolated image-level features; (2) Context-aware Instance-Level Alignment (CILA) module, which enhances the local discriminability by capturing the underlying complementary effect between the instance-level feature and the global context information for the instance-level feature alignment; (3) local feature masks that calibrate the local transferability to provide semantic guidance for the following discriminative pattern alignment. Experimental results show that HTCN significantly outperforms the state-of-the-art methods on benchmark datasets.

研究の動機と目的

  • 敵対的ドメイン適応におけるオブジェクト検出の文脈で、転送可能性と判別可能性のトレードオフを解消すること。
  • すべての特徴領域にわたる無差別なドメインアライメントが引き起こす負の転送リスクを克服すること。
  • 複雑なオブジェクトレイアウトやシーンの変化を伴うターゲットドメインにおける検出性能を向上させること。
  • 局所領域、インスタンス、画像の3レベルで転送可能性を補正する統合フレームワークを構築すること。
  • 特徴の判別可能性を高めつつ転送可能性を損なわずに、ドメインシフト下でもより強固で正確なオブジェクト検出を実現すること。

提案手法

  • 入力の補間を伴う重要度重み付き敵対的訓練(IWAT-I)を導入し、補間された画像レベル特徴の重みを再調整することで、グローバルな判別可能性を強化する。
  • インスタンスレベル特徴とグローバルコンテキストをテンソル積を用いて融合する文脈を考慮したインスタンスレベルアライメント(CILA)モジュールを提案する。
  • 浅い層の特徴から得られる局所特徴マスクを設計し、教師なしで意味的に記述的で転送可能な領域を特定・強調する。
  • 局所領域、インスタンス、画像の3レベルで転送可能性補正を適用する階層的補正戦略を採用する。
  • 動的再重み付けと注目型ガイドランスを用いて、敵対的訓練によりドメイン間の特徴をアライメントしつつ、判別能力を維持する。
  • すべてのモジュールを統合した一貫性のある検出フレームワーク(例:Faster R-CNN)に統合し、ドメイン不変かつ判別可能な特徴をエンドツーエンドで学習可能にする。

実験結果

リサーチクエスチョン

  • RQ1敵対的ドメイン適応におけるオブジェクト検出の文脈で、どのようにして転送可能性と判別可能性を調和させることができるか?
  • RQ2ドメインシフト下で、インスタンスレベルのコンテキストは、局所特徴の判別可能性を向上させる上で果たす役割は何か?
  • RQ3教師なしの局所特徴マスクは、転送可能な領域を効果的に特定し、アライメント品質を向上させることができるか?
  • RQ4敵対的訓練の過程で入力補間を適用すると、グローバル特徴の判別可能性にどのような影響を与えるか?
  • RQ5局所領域、インスタンス、画像の3レベルにわたる階層的補正は、クロスドメインベンチマークにおける検出mAPをどの程度向上させるか?

主な発見

  • Cityscapes→Foggy-Cityscapesでは、mAPが39.8%に達し、以前のSOTA手法(SWDA)の36.6% mAPを顕著に上回った。
  • Sim10K→Cityscapesでは、mAPが42.5%に達し、以前のSOTA(MAF)を1.4ポイント上回った。
  • アブレーションスタディの結果、HTCNの任意のモジュールを除去すると一貫して性能低下が見られ、全モジュールの必要性が確認された。
  • 局所特徴マスクはエッジに敏感なパターンを示し、顕著な物体境界や標識、建物などの記述的シーン要因に焦点を当てる。
  • IOU閾値(0.5–0.9)の範囲で優れた性能を維持しており、ベースラインと比較してより正確で頑健なボクセル境界推定を示している。
  • テンソル積による特徴融合を用いたCILAモジュールは、連結ベースの融合を上回る性能を示し、構造的特徴相互作用の有効性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。