Skip to main content
QUICK REVIEW

[論文レビュー] Constructing Self-motivated Pyramid Curriculums for Cross-Domain Semantic Segmentation: A Non-Adversarial Approach

Qing Lian, Fengmao Lv|arXiv (Cornell University)|Aug 26, 2019
Domain Adaptation and Few-Shot Learning参考文献 41被引用数 41
ひとこと要約

PyCDAは、追加の識別器なしで敵対的手法を上回るように自己訓練とカリキュラムの概念を組み合わせた、意味セグメンテーションの無監督ドメイン適応のための自己動機付けピラミッドカリキュラムを導入します。

ABSTRACT

We propose a new approach, called self-motivated pyramid curriculum domain adaptation (PyCDA), to facilitate the adaptation of semantic segmentation neural networks from synthetic source domains to real target domains. Our approach draws on an insight connecting two existing works: curriculum domain adaptation and self-training. Inspired by the former, PyCDA constructs a pyramid curriculum which contains various properties about the target domain. Those properties are mainly about the desired label distributions over the target domain images, image regions, and pixels. By enforcing the segmentation neural network to observe those properties, we can improve the network's generalization capability to the target domain. Motivated by the self-training, we infer this pyramid of properties by resorting to the semantic segmentation network itself. Unlike prior work, we do not need to maintain any additional models (e.g., logistic regression or discriminator networks) or to solve minmax problems which are often difficult to optimize. We report state-of-the-art results for the adaptation from both GTAV and SYNTHIA to Cityscapes, two popular settings in unsupervised domain adaptation for semantic segmentation.

研究の動機と目的

  • 合成画像から実画像へ転送する際のクロスドメイン意味セグメンテーションの改善を動機づける。
  • 追加モデルなしでターゲットドメインの特性を活用する学習フレームワークを開発する。
  • ネットワーク自体から派生したターゲットドメインの画像領域とピクセル上にピラミッド型カリキュラムを導入する。
  • 競争力のある性能を維持しつつ敵対的なミンマックス最適化の必要性を排除する。

提案手法

  • 各ターゲット画像に対して、全体画像(トップ)、ピクセル正方形(ミドル)、ピクセル(ボトム)からなるピラミッドカリキュラムを構築する。
  • セグメンテーションネットワーク自体からターゲットドメインの特性(ラベル分布)を自己学習風に推定する。
  • 費用のかかるスーパー ピクセルを、効率のために小さな重複する4x4または8x8ピクセル正方形に置換する。
  • ターゲット画像のラベル分布と疑似ラベルに対してクロスエントロピー損失を用い、追加の識別器を避けつつネットワークを更新する。
  • ターゲット画像レベルの分布を、領域レベルおよびピクセルレベルの疑似ラベル監視と統一目的関数(Eq. 5)で組み合わせる。
  • 必要に応じてソース画像からの平均分布を用いてターゲット画像分布を表現し、調整済みハイパーパラメータを用いたSGDベースの最適化を適用する。

実験結果

リサーチクエスチョン

  • RQ1ターゲットドメインのラベル分布とピクセルレベルの疑似ラベルを組み合わせた自己動機付けピラミッドカリキュラムは、敵対的ドメイン適応手法と同等またはそれを上回ることができますか?
  • RQ2従来のスーパー ピクセルをピクセル正方形に置換することで、計算量を減らしつつ性能を維持できますか?
  • RQ3自己訓練をカリキュラム適応と統合することは、GTAV/CityscapesおよびSYNTHIA/Cityscapes転送での性能にどう影響しますか?
  • RQ4ピラミッドレベル(トップ画像、ミドルの正方形、ボトムのピクセル)を使用することが学習信号と一般化性能に与える影響はどのようなものですか?
  • RQ5この非対立的アプローチは、意味セグメンテーションのドメイン適応において既存のCDAやSTのベースラインを上回ることができますか?

主な発見

  • PyCDA は、敵対的でない手法の中で GTAV および SYNTHIA から Cityscapes への無監督ドメイン適応において最先端の結果を達成します。
  • スーパー ピクセルを4x4/8x8ピクセル正方形に置換することで、計算を抑えつつ同等の性能を得られます。
  • トップレイヤーの画像分布とミドルレイヤーの領域分布、ボトムレイヤーの疑似ラベル監視を統一目的で同時に活用すると、CDAやSTの単独使用より優れた結果を得られます。
  • このアプローチは異なるバックボーンでも良好に機能し、敵対的トレーニングを用いるいくつかの競合手法を上回ります。
  • 定性的な結果は、主要クラス(例:道路、建物、植生)のセマンティック分割の改善と、いくつかの設定で小さな物体の処理改善を示しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。