[論文レビュー] FCNs in the Wild: Pixel-level Adversarial and Constraint-based Adaptation
最初の教師なしドメイン適応法をセマンティックセグメンテーションのために導入。完全畳み込みネットワークを用い、グローバルなドメイン対向訓練とカテゴリ特異的拘束学習を組み合わせて、ラベル付きソースドメインから未ラベルのターゲットドメインへ転移する。
Fully convolutional models for dense prediction have proven successful for a wide range of visual tasks. Such models perform well in a supervised setting, but performance can be surprisingly poor under domain shifts that appear mild to a human observer. For example, training on one city and testing on another in a different geographic region and/or weather condition may result in significantly degraded performance due to pixel-level distribution shift. In this paper, we introduce the first domain adaptive semantic segmentation method, proposing an unsupervised adversarial approach to pixel prediction problems. Our method consists of both global and category specific adaptation techniques. Global domain alignment is performed using a novel semantic segmentation network with fully convolutional domain adversarial learning. This initially adapted space then enables category specific adaptation through a generalization of constrained weak learning, with explicit transfer of the spatial layout from the source to the target domains. Our approach outperforms baselines across different settings on multiple large-scale datasets, including adapting across various real city environments, different synthetic sub-domains, from simulated to real environments, and on a novel large-scale dash-cam dataset.
研究の動機と目的
- ドメインシフトの下でのセマンティックセグメンテーションを動機づけ、ターゲットアノテーションへの依存を減らす。
- FCN向けピクセルレベルのドメイン適応フレームワークを開発し、グローバルとカテゴリ特異的なシフトを扱う。
- 対向訓練を活用してソース/ターゲット表現を整合させ、拘束を介して空間レイアウトを転移させる。
- 新しいBDDSデータセットを導入し、合成→実写、季節間、都市間の評価を行う。
提案手法
- 領域ベースのインスタンスに対応する受容野を用いたピクセルレベルのドメイン対向訓練によるグローバルなドメイン整合。
- ソースとターゲットの表現間のドメイン差を最小化するため、ドメClassifierと特徴空間の交互最適化。
- ターゲット領域で源のシーンレイアウト統計を転移させる拘束付きミル(MIL)目的関を通じたカテゴリ特異的適応。
- 監視付きソースセグメンテーション損失とグローバルなドメイン整合および拘束付きMIL損失を結合したジョイント目的の導出。
- セグメンテーションのバックボーンとしてVGG16に基づくディレイテッドFCNフロントエンドを使用した適応。
- 適応中にソース由来のクラスサイズ制約を強制するため、ターゲットドメイン上での画像レベルラベルの予測を用いる。
実験結果
リサーチクエスチョン
- RQ1ターゲットラベルが入手できない場合でも、教師なしドメイン適応はセマンティックセグメンテーションを改善できるか。
- RQ2グローバルなドメイン整合とカテゴリ特異的なレイアウトを意識した拘束を組み合わせると、それぞれ単独よりも性能が向上するか。
- RQ3合成と実写、季節、都市間での運転シーンにおいて、提案法はどの程度転移できるか。
- RQ4空間レイアウト統計の転移が領域間のセグメンテーション性能に与える影響はどれくらいか。
主な発見
- グローバルなドメイン整合(GA)は、大きなシフト(合成→実写、GTA5/SYNTHIA から Cityscapes へ)で非適応ベースラインより顕著なmIoUの向上を提供する。
- カテゴリ特異的適応(CA)は、ターゲットで源のような空間レイアウトを強制することにより、特定のクラスで追加の利得をもたらす。
- GA+CAはGAのみよりもいくつかのクロスドメイン設定で優れており、グローバル整合とレイアウト転移を組み合わせる価値を示す。
- 季節を超えた適用では、ほとんどのクラスカテゴリで平均約3ポイントのmIoU向上を達成。
- Cityscapes内のクロスシティ適応では、主にドメイン対向訓練から大幅な利得が見られ、CAからの特定カテゴリの追加利得もある。
- 適応後に定性的な改善を示す大規模なダッシュカムデータセットであるBDDSの導入。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。