[論文レビュー] Pixel-Level Cycle Association: A New Perspective for Domain Adaptive Semantic Segmentation
本研究は Pixel-Level Cycle Association(PLCA)を提案する。これは、跨ドメインのピクセルレベルの関連を構築して対照的に強化し、マルチレベルの監督を追加することで、セマンティックセグメンテーションのドメインギャップを最小化する1段階のエンドツーエンドフレームワークである。GTAV→CityscapesおよびSYNTHIA→Cityscapesで高い効果を達成する。
Domain adaptive semantic segmentation aims to train a model performing satisfactory pixel-level predictions on the target with only out-of-domain (source) annotations. The conventional solution to this task is to minimize the discrepancy between source and target to enable effective knowledge transfer. Previous domain discrepancy minimization methods are mainly based on the adversarial training. They tend to consider the domain discrepancy globally, which ignore the pixel-wise relationships and are less discriminative. In this paper, we propose to build the pixel-level cycle association between source and target pixel pairs and contrastively strengthen their connections to diminish the domain gap and make the features more discriminative. To the best of our knowledge, this is a new perspective for tackling such a challenging task. Experiment results on two representative domain adaptation benchmarks, i.e. GTAV $ ightarrow$ Cityscapes and SYNTHIA $ ightarrow$ Cityscapes, verify the effectiveness of our proposed method and demonstrate that our method performs favorably against previous state-of-the-arts. Our method can be trained end-to-end in one stage and introduces no additional parameters, which is expected to serve as a general framework and help ease future research in domain adaptive semantic segmentation. Code is available at https://github.com/kgl-prml/Pixel- Level-Cycle-Association.
研究の動機と目的
- ドメイン間のピクセルレベルの関係を活用する必要性を動機づけ、ドメイン適応セマンティックセグメンテーションを促進する。
- 跨ドメインピクセルレベルのサイクルアソシエーションを提案し、ドメイン差を最小化する。
- 追加パラメータなしでエンドツーエンドの学習を可能にし、特徴の識別性を向上させる。
- オーバーフィットを抑制し、ターゲットピクセルのカバレッジを向上させるマルチレベルのアソシエーションを取り入れる。
提案手法
- ソースとターゲットのピクセル特徴間のコサイン類似度を用いて跨ドメインのピクセル類似度を定義する。
- ソースピクセルに最も似ているターゲットピクセルを選択し、さらにそのターゲットピクセルに最も似ているソースピクセルを選択して循環アソシエーションを構築する。循環整合性をトレーニング信号として課す。
- 関連ピクセル結びつきを強化しつつ類似度を正規化して識別性を高める対比損失(InfoNCE様)を適用する(式4、式5)。
- ターゲットピクセルの空間的特徴集約を導入して勾配を画像全体へ拡散させる(式7–式8)。
- 同じサイクルアソシエーションを最終予測にも適用して負のKL発散を用いたマルチレベル監督へ拡張する(式9–式10)。
- ソース上のクロスエントロピー、Lovász-softmax、アソシエーション/Lsr項を組み合わせた全体目的関数を最適化する(式14)。
実験結果
リサーチクエスチョン
- RQ1ピクセルレベルの跨ドメインアソシエーションは、グローバル/差異ベースの手法よりもドメインシフトをより効果的に低減できるか?
- RQ2ピクセルアソシエーションを対照的に強化することで、セマンティッククラス全体のターゲットドメイン識別性が向上するか?
- RQ3空間的集約は過小表現されたターゲットピクセルへの勾配拡散を改善し、アソシエーションのバイアスを減らすか?
- RQ4マルチレベル(特徴と予測)のアソシエーションはソースへの過剰適合を緩和し、適応を改善するか?
主な発見
- PLCAはGTAV→Cityscapesで47.7%のmIoUを達成し、ソースのみのベースラインより13.4ポイント高い。
- PLCAはSYNTHIA→Cityscapesで46.8%のmIoUを達成し、ソースのみのベースラインより10.4ポイント高い。
- 特徴と予測のマルチレベルアソシエーションは、単一レベルと比べて追加のゲインを提供する。
- 最新の敵対的手法と比較して、PLCAはAdaptSegをGTAV→Cityscapesで5.3%、SYNTHIA→Cityscapesで7.3%向上させる。
- PLCAはエンドツーエンドでパラメータ効率的でありつつ、自己学習ベースライン(例:CRST、PyCDA)と競合するか、それを上回る。
- 本手法は追加パラメータなしの単一段階のエンドツーエンドのままで、定性的可視化において予測がより滑らかでノイズが少なく、セグメンテーション品質が向上することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。