QUICK REVIEW

[论文解读] StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Rinon Gal, Or Patashnik|arXiv (Cornell University)|Aug 2, 2021

Generative Adversarial Networks and Image Synthesis被引用 65

一句话总结

StyleGAN-NADA 使用预训练的图像生成器在仅通过文本提示的引导下生成域外图像，使用基于 CLIP 的方向损失和自适应层冻结来避免数据收集。

ABSTRACT

Can a generative model be trained to produce images from a specific domain, guided by a text prompt only, without seeing any image? In other words: can an image generator be trained "blindly"? Leveraging the semantic power of large scale Contrastive-Language-Image-Pre-training (CLIP) models, we present a text-driven method that allows shifting a generative model to new domains, without having to collect even a single image. We show that through natural language prompts and a few minutes of training, our method can adapt a generator across a multitude of domains characterized by diverse styles and shapes. Notably, many of these modifications would be difficult or outright impossible to reach with existing methods. We conduct an extensive set of experiments and comparisons across a wide range of domains. These demonstrate the effectiveness of our approach and show that our shifted models maintain the latent-space properties that make generative models appealing for downstream tasks.

研究动机与目标

推动在无需数据收集的情况下实现域外图像生成。
利用 CLIP 的文本-图像对齐来指导生成器的自适应。
开发在域转移过程中维持潜在空间结构的训练方案。
引入自适应层冻结以稳定剧烈的域变化。
展示在风格、形状和跨域编辑方面的广泛适用性。

提出的方法

使用两个同步的生成器：一个冻结的 G_frozen 和一个可训练的 G_train，它们共用一个映射网络。
定义一个方向性 CLIP 损失，使 G_train 与 G_frozen 之间的 CLIP 嵌入的变化与源文本与目标文本之间的嵌入差异对齐。
引入一种自适应层冻结机制，基于潜在码编辑选择要更新的最相关层。
采用方向性 CLIP 目标而非全局 CLIP 损失，以避免模式坍塌和对抗性解。
可选地应用潜在映射器（StyleCLIP 映射器）以更好地处理大幅度的形状变化。
保持潜在空间对齐，使现有的编辑方向在改造后的生成器上仍然可用。

实验结果

研究问题

RQ1能否将一个预训练生成器转移到仅由文本指定的新域，且不使用目标图像？
RQ2如何使用 CLIP 在不产生对抗性或坍塌输出的情况下指导生成器自适应？
RQ3应更新网络的哪些部分，以在保持真实感的同时实现鲁棒的、大域的变化？
RQ4自适应层选择和方向性 CLIP 损失是否能在剧烈的域转变中维持潜在空间结构？
RQ5改造后的生成器在现有潜在空间编辑和图像到图像转换任务上的支持程度如何？

主要发现

该方法仅使用文本提示即可在多样目标（风格、纹理、形状）上实现域外生成。
两生成器设置配合方向性 CLIP 损失可防止模式坍塌和对抗性解。
自适应层冻结在每次迭代中识别并更新最相关的网络层，从而提高训练稳定性。
改造后的生成器保持潜在空间结构，并兼容源域的现有编辑方向和模型。
与基于 StyleCLIP 的编辑和少量样本方法相比，该方法在不使用训练图像的情况下实现高质量和多样性。
潜在反演和编辑工作流保持兼容，使跨域图像操作可使用现成工具。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。