Skip to main content
QUICK REVIEW

[论文解读] StyleGAN2 Distillation for Feed-forward Image Manipulation

Yuri Viazovetskyi, Vladimir Ivashkin|arXiv (Cornell University)|Mar 7, 2020
Generative Adversarial Networks and Image Synthesis参考文献 57被引用 24
一句话总结

本文提出了一种蒸馏方法,将特定的 StyleGAN2 图像操作(如性别转换、年龄变化和风格混合)转移到前馈式图像到图像翻译网络中。通过从 StyleGAN2 解耦的潜在空间生成合成成对训练数据,该方法实现了与基于反向传播优化相当的高质量、实时推理效果,在性别转换任务的用户研究中优于现有的无配对方法和 StyleGAN 编码器。

ABSTRACT

StyleGAN2 is a state-of-the-art network in generating realistic images. Besides, it was explicitly trained to have disentangled directions in latent space, which allows efficient image manipulation by varying latent factors. Editing existing images requires embedding a given image into the latent space of StyleGAN2. Latent code optimization via backpropagation is commonly used for qualitative embedding of real world images, although it is prohibitively slow for many applications. We propose a way to distill a particular image manipulation of StyleGAN2 into image-to-image network trained in paired way. The resulting pipeline is an alternative to existing GANs, trained on unpaired data. We provide results of human faces' transformation: gender swap, aging/rejuvenation, style transfer and image morphing. We show that the quality of generation using our method is comparable to StyleGAN2 backpropagation and current state-of-the-art methods in these particular tasks.

研究动机与目标

  • 在不使用基于反向传播的潜在代码优化的情况下,实现实时、前馈式真实人脸图像操作。
  • 解决在生产环境中基于反向传播的方法因速度过慢而不切实际的问题。
  • 从 StyleGAN2 的解耦潜在空间生成高质量的合成成对数据集,用于训练图像到图像网络。
  • 证明仅在合成数据上训练的模型能够有效泛化到真实世界图像。
  • 在定量指标和用户偏好方面,优于现有的无配对图像到图像翻译方法和 StyleGAN 编码器,特别是在特定操作任务中。

提出的方法

  • 通过在 StyleGAN2 的 W+ 潜在空间中应用受控的潜在空间操作(例如向量加法、插值、平均)生成合成成对数据集。
  • 针对每种操作任务(性别转换、年龄变化、风格混合),使用参考图像和经过操作的潜在代码生成多个图像三元组或成对样本。
  • 基于 pix2pixHD 的图像到图像翻译网络在合成成对数据上进行训练,以学习从源图像到目标图像的映射。
  • 该方法利用了 StyleGAN2 潜在空间的解耦特性,生成多样化、逼真且语义有意义的成对数据。
  • 蒸馏后的模型支持实时、前馈式推理,避免了耗时的基于反向传播的潜在优化。
  • 该方法具有模块化设计,可为不同操作类型分别训练独立模型。

实验结果

研究问题

  • RQ1能否通过从 StyleGAN2 潜在空间生成的合成成对数据,实现在无需反向传播情况下的高质量、前馈式图像操作?
  • RQ2与基于反向传播的潜在优化相比,蒸馏后的图像到图像网络在真实感和用户偏好方面的表现如何?
  • RQ3仅在合成数据上训练的模型能否在复杂操作任务中有效泛化到真实世界图像?
  • RQ4StyleGAN2 潜在空间的解耦程度在多大程度上支持蒸馏模型中清晰、任务特定的操作?
  • RQ5在性别转换和年龄变化等特定任务中,该蒸馏方法是否优于现有的无配对图像到图像翻译方法?

主要发现

  • 在性别转换任务中,该蒸馏模型在用户研究中的质量胜率和真实感胜率分别达到 86%,优于 StyleGAN 编码器(Nikitko)和其他基线方法。
  • 该方法在 FID 指标上与基于反向传播的 StyleGAN2 和最先进无配对方法相当,性别转换任务的 FID 达到 12.4。
  • 用户研究表明,该蒸馏模型在真实感方面以 78% 的胜率优于 StyleGAN2 投影(W+),在质量方面以 86% 的胜率优于 W+。
  • 该方法在其他任务中也表现出良好的泛化能力:年龄变化/年轻化和风格混合在真实 FFHQ 图像上产生了视觉上合理且一致的结果。
  • 尽管潜在空间存在纠缠现象,该方法仍保持了较高的视觉质量,仅在女性人脸生成中出现极少数不必要微笑等轻微伪影。
  • 蒸馏模型支持实时推理,适用于生产环境,而基于反向传播的方法因速度过慢而难以实用化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。