Skip to main content
QUICK REVIEW

[論文レビュー] Domain Adaptation for Semantic Segmentation via Patch-Wise Contrastive Learning

Weizhe Liu, David Ferstl|arXiv (Cornell University)|Apr 22, 2021
Domain Adaptation and Few-Shot Learning参考文献 53被引用数 25
ひとこと要約

この論文は、パッチ単位の対比学習を用いた無監督および半监督のセマンティックセグメンテーションにおけるドメイン適応を提案し、敵対的訓練を回避して、特にターゲット注釈が限られている場合に最先端の性能を達成します。

ABSTRACT

We introduce a novel approach to unsupervised and semi-supervised domain adaptation for semantic segmentation. Unlike many earlier methods that rely on adversarial learning for feature alignment, we leverage contrastive learning to bridge the domain gap by aligning the features of structurally similar label patches across domains. As a result, the networks are easier to train and deliver better performance. Our approach consistently outperforms state-of-the-art unsupervised and semi-supervised methods on two challenging domain adaptive segmentation tasks, particularly with a small number of target domain annotations. It can also be naturally extended to weakly-supervised domain adaptation, where only a minor drop in accuracy can save up to 75% of annotation cost.

研究の動機と目的

  • ドメイン間のギャップを、ラベル空間のパッチレベルの構造的類似性を介してクロスドメイン特徴を整列させることによって橋渡しする。
  • ドメイン整列のための対立 Objective ではなく対比学習を活用する。
  • ラベルなしデータを擬似ラベリングとエントロピー正則化を通じて活用し、ターゲットドメインの性能を向上させる。
  • UDA(無監督)・SSDA(半监督)・弱監督設定での有効性を示し、注釈コストを削減する。

提案手法

  • 画像をパッチとして表現し、エンコーダとパッチ認識型潜在プロジェクターを用いて各パッチの潜在特徴を学習する。
  • パッチごとのセマンティック差異Dを、3レベルのピラミッド状ラベリングヒストグラム(ラベル空間の空間ピラミッドマッチング)を用いて定義し、対比学習の正の/負のパッチペアを決定する。
  • パッチ単位の対比損失L_contを構築し、類似パッチ(低いD)をソース/ターゲット間で近づけ、異なるパッチを離す。
  • 監督付きのソース/ターゲットデータのクロスエントロピ―と、ラベルなしデータのエントロピー正則化損失を組み合わせたベース損失L_baseを用いて不確実性を低減する。
  • オプションとしてターゲット未ラベルサンプルの擬似ラベルを生成しL_selfを形成してSSDAの性能を向上させる。
  • 訓練前にソース画像をターゲットドメインへ翻訳するためのフーリエ領域適応(FDA)を組み込む。
  • まずベース損失を最適化し、その後対比学習項と自己学習項を共同で最適化する段階的戦略で訓練する。

実験結果

リサーチクエスチョン

  • RQ1パッチレベルのドメイン間対比整列は、セマンティックセグメンテーションにおける敵対的特徴整列よりも優れているだろうか?
  • RQ2ラベル空間の構造的差異をどのように活用して、意味のあるクロスドメインの正/負パッチペアを定義するのか?
  • RQ3ラベルなしターゲットデータと擬似ラベリングは、セマンティックセグメンテーションのSSDA性能にどのような影響を与えるのか?
  • RQ4アノテーションをどれだけ減らして(弱監督)、性能を大きく損なわずに済むのか?

主な発見

# ラベル付きroadsidewalkbuildingwallfencepolelightsignvegetationterrainskypersonridercartruckbustrainmotorcyclebicyclemIoU
0MinEnt84.418.780.623.823.228.436.923.483.225.279.459.029.978.533.729.61.729.933.642.30
0AdvEnt89.936.581.629.225.228.532.322.483.934.077.157.427.983.729.439.11.528.423.343.80
0FDA92.553.382.426.527.636.440.638.982.339.878.062.634.484.934.153.116.927.746.450.45
0OURS93.354.283.025.928.137.241.139.383.138.978.261.336.284.235.854.018.126.747.550.85
  • 提案手法は、無監督および半监督のドメイン適応の両方において、最先端の手法を一貫して上回る。
  • SSDAでは、ターゲットドメインの注釈が乏しい場合に、完全監督ベースラインよりも大きな利得をもたらす(例:50–100画像程度)。
  • ソースからターゲットへの翻訳を行うFDAとパッチ単位の対比損失を組み合わせると、ドメイン適応性能が向上する。
  • 対比学習の非ミニマックス特性により、敵対的手法より訓練が容易で安定している。
  • 弱監督シナリオ(部分的な注釈)でも高性能を維持でき、注釈コストを最大約75%削減できる可能性があるが、少量の精度低下が許容される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。