Skip to main content
QUICK REVIEW

[論文レビュー] StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Rinon Gal, Or Patashnik|arXiv (Cornell University)|Aug 2, 2021
Generative Adversarial Networks and Image Synthesis被引用数 65
ひとこと要約

StyleGAN-NADA は、事前学習済みの画像生成器をテキストプロンプトだけで導かれたドメイン外の画像を生成するよう訓練し、CLIPベースの方向性損失と適応的なレイヤー凍結を使用してデータ収集を回避する。

ABSTRACT

Can a generative model be trained to produce images from a specific domain, guided by a text prompt only, without seeing any image? In other words: can an image generator be trained "blindly"? Leveraging the semantic power of large scale Contrastive-Language-Image-Pre-training (CLIP) models, we present a text-driven method that allows shifting a generative model to new domains, without having to collect even a single image. We show that through natural language prompts and a few minutes of training, our method can adapt a generator across a multitude of domains characterized by diverse styles and shapes. Notably, many of these modifications would be difficult or outright impossible to reach with existing methods. We conduct an extensive set of experiments and comparisons across a wide range of domains. These demonstrate the effectiveness of our approach and show that our shifted models maintain the latent-space properties that make generative models appealing for downstream tasks.

研究の動機と目的

  • データ収集を行わずに、ドメイン外の画像生成を有効にする動機付け。
  • CLIPのテキストと画像の整合性を活用して、生成器の適応を導く。
  • 潜在空間の構造をドメインシフト中に保持する訓練スキームの開発。
  • 急激なドメイン変更を安定化させるための適応的レイヤー凍結の導入。
  • スタイル、形状、そしてドメイン横断編集にわたる広い適用性を示す。

提案手法

  • 同期した2つの生成器を使用: 凍結された G_frozen と学習可能な G_train が、マッピングネットワークを共有する。
  • G_trainとG_frozen間のCLIP埋め込みの変化を、ソーステキストとターゲットテキストの埋め込み差と一致させる方向性CLIP損失を定義する。
  • 潜在コードの編集に基づいて更新すべき最も関連する層を選択する適応的なレイヤー凍結メカニズムを導入する。
  • モード崩れや敵対的解を避けるために、グローバルCLIP損失ではなく方向性CLIP目的を採用する。
  • 大規模な形状変化をより適切に扱うために、潜在マッパー(StyleCLIPマッパー)を任意で適用する。
  • 適応された生成器上でも既存の編集方向が利用可能になるよう、潜在空間の整合性を維持する。

実験結果

リサーチクエスチョン

  • RQ1事前訓練済みの生成器を、ターゲット画像なしでテキストだけで指定された新しいドメインへシフトできるのか?
  • RQ2敵対的な出力や崩壊した出力を生み出すことなく、CLIPをどのように用いて生成器の適応をガイドできるか?
  • RQ3現実感を保ちながら堅牢で大規模なドメイン変更を達成するために、ネットワークのどの部分を更新すべきか?
  • RQ4適応的なレイヤー選択と方向性CLIP損失は、急激なドメイン移行時に潜在空間の構造を維持できるか?
  • RQ5適応された生成器は、既存の潜在空間編集および画像間翻訳タスクをどれだけサポートするか?

主な発見

  • 本手法は、テキストプロンプトのみを用いて、スタイル・テクスチャ・形状など多様なターゲットに対してドメイン外生成を可能にする。
  • 方向性CLIP損失を用いた二生成器構成は、モード崩壊や敵対的解を防ぐ。
  • 適応的なレイヤー凍結は、各イテレーションごとに最も関連するネットワーク層を識別・更新し、訓練の安定性を向上させる。
  • 適応された生成器は潜在空間の構造を保持し、ソースドメインの既存の編集方向やモデルに対応する。
  • 本手法はStyleCLIPベースの編集やfew-shot法と比較して有利であり、訓練用画像を使用せず高品質かつ多様性を達成する。
  • 潜在逆像法と編集ワークフローは互換性を維持し、既製ツールでの横断的な画像操作を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。