[論文レビュー] Multi-source Domain Adaptation for Semantic Segmentation
MADANは、複数ソースの教師なしドメイン適応フレームワークをセマンティックセグメンテーションに導入し、ピクセルレベルの適応、複数の適応ソースのドメイン集約、およびターゲットドメインへの特徴レベルの整合を同時に行い、GTA/SYNTHIAからCityscapes/BDDSのベンチマークで最先端の結果を達成します。
Simulation-to-real domain adaptation for semantic segmentation has been actively studied for various applications such as autonomous driving. Existing methods mainly focus on a single-source setting, which cannot easily handle a more practical scenario of multiple sources with different distributions. In this paper, we propose to investigate multi-source domain adaptation for semantic segmentation. Specifically, we design a novel framework, termed Multi-source Adversarial Domain Aggregation Network (MADAN), which can be trained in an end-to-end manner. First, we generate an adapted domain for each source with dynamic semantic consistency while aligning at the pixel-level cycle-consistently towards the target. Second, we propose sub-domain aggregation discriminator and cross-domain cycle discriminator to make different adapted domains more closely aggregated. Finally, feature-level alignment is performed between the aggregated domain and target domain while training the segmentation network. Extensive experiments from synthetic GTA and SYNTHIA to real Cityscapes and BDDS datasets demonstrate that the proposed MADAN model outperforms state-of-the-art approaches. Our source code is released at: https://github.com/Luodian/MADAN.
研究の動機と目的
- 実世界の多源ドメインシフト(分布の異なる複数のラベル付きソース)下でのセマンティックセグメンテーションを動機づける。
- ピクセルレベルの適応と意味的およびサイクル整合性制約を組み合わせたエンドツーエンドのフレームワークを開発する。
- 複数の適応ドメインを統一ドメインへ集約することを促進し、ターゲットドメインの性能を向上させる。
- 集約されたソースドメインと実世界のターゲットドメインとの特徴レベルの整合を通じてセグメンテーション性能を向上させる。
提案手法
- 各ソース S_i に対して、ターゲットドメイン T へのマッピングを学習し、適応画像 G_{S_i→T} を生成するとともに、サイクル整合損失を用いて逆マッピング G_{T→S_i} を生成する。
- 適応ドメインの予測を動的に更新されるセグメンテーションモデルと整合させて意味を保持する動的意味的一貫性(DSC)を導入する。
- 複数の適応ドメインを統一ドメインに集約するために、Sub-domain Aggregation Discriminator (SAD) と Cross-domain Cycle Discriminator (CCD) を用いる。
- 統合ドメイン X' 上でクロスエントロピータスク損失を用いてセグメンテーションモデル F を訓練し、ターゲットドメイン特徴に対する識別器 D_F で特徴レベルの整合を行う。
- 最適化は、ピクセルレベルのGAN損失、サイクル整合損失、DSC損失、SAD/CCD損失、および特徴レベルの整合損失を統合したMADAN目的関数に組み込む。
- 3段階の訓練を提供(初期のピクセルレベル適応、集約を伴う動的意味的一貫性、最終的な特徴整合を伴うセグメンテーション)し、反復的に改良する。
実験結果
リサーチクエスチョン
- RQ1複数のソースドメインを効果的に集約して、セマンティックセグメンテーションの教師なしドメイン適応を改善できるか?
- RQ2意味的一貫性とドメイン集約を補完するピクセルレベルの適応は、従来の単一ソースまたは素朴なマルチソースアプローチよりターゲットドメインの性能を向上させるか?
- RQ3GTA/SYNTHIA から Cityscapes/BDDS タスクにおけるセグメンテーション精度に対する、SAD および CCD 判別器と DSC の組み合わせの影響はどの程度か?
- RQ4ピクセルレベルおよびドメイン集約型適応の上に適用した場合、特徴レベルの整合はどの程度寄与するか?
主な発見
- MADAN は GTA および SYNTHIA から Cityscapes および BDDS への適用で最先端手法を上回り、マルチソース集約による強力な利得を示した。
- DSC loss は元の SC loss より改善され、ピクセルレベル適応中の意味の保持がより良くなったことを示している。
- SAD と CCD の双方が性能を向上させ、SAD は指標を横断してより一貫した改善をもたらす。
- 特徴レベルの整合を加えるとさらに性能が向上し、各要素はほぼ直交しており、加法的な改善を提供する。
- 経験的アブレーションは、ピクセルレベル翻訳、意味的ガイダンス、ドメイン集約、および特徴整合を組み合わせることの有効性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。