Skip to main content
QUICK REVIEW

[论文解读] GANSpace: Discovering Interpretable GAN Controls

Erik Härkönen, Aaron Hertzmann|arXiv (Cornell University)|Apr 6, 2020
Generative Adversarial Networks and Image Synthesis参考文献 24被引用 425
一句话总结

GANSpace 提出一种简单的无监督方法,通过在潜在空间或特征空间使用 PCA,识别预训练 GAN 的可解释潜在方向,从而实现分层编辑和类似 StyleGAN 的控制,无需重新训练。

ABSTRACT

This paper describes a simple technique to analyze Generative Adversarial Networks (GANs) and create interpretable controls for image synthesis, such as change of viewpoint, aging, lighting, and time of day. We identify important latent directions based on Principal Components Analysis (PCA) applied either in latent space or feature space. Then, we show that a large number of interpretable controls can be defined by layer-wise perturbation along the principal directions. Moreover, we show that BigGAN can be controlled with layer-wise inputs in a StyleGAN-like manner. We show results on different GANs trained on various datasets, and demonstrate good qualitative matches to edit directions found through earlier supervised approaches.

研究动机与目标

  • 激发并实现对预训练 GAN 的可解释控制,而无需额外的监督。
  • 使用有原则的统计方法在 GAN 的潜在空间/特征空间中识别有意义的编辑方向。
  • 展示对 PCA 方向进行分层应用能够产生可解释且可控的图像编辑。
  • 通过分层编辑和风格化混合,展示 StyleGAN 与 BigGAN 的实际控制机制。

提出的方法

  • 对 BigGAN 的早层特征张量以及 StyleGAN 的 W 空间应用 PCA,以获得主方向。
  • 通过投影并在可选情况下将 PCA 分量回归到潜在空间以得到相应的潜在方向(StyleGAN:w;BigGAN:通过 z 的 u)。
  • 通过将 PCA 方向应用于特定层范围来定义分层编辑(例如 StyleGAN 的 E(v_k, j–k))。
  • 修改 BigGAN 以通过在各层之间改变中间 Skip-z 输入来实现分层风格混合,类似 StyleGAN 风格的控制。
  • 提供一个交互式 GUI,以探索方向、命名编辑并保存/加载方向集合。

实验结果

研究问题

  • RQ1在无标签监督的情况下,无监督的 PCA 能否在预训练 GAN 中识别出有意义、可解释的方向?
  • RQ2对 PCA 方向进行分层应用是否能在不同层之间产生解耦或选择性解耦的编辑?
  • RQ3是否可以在不重新训练的情况下增强 BigGAN,以支持类似 StyleGAN 的分层控制,从而实现相似的编辑能力?
  • RQ4PCA 导出的方向与有监督或随机方向在产生可解释的图像编辑方面有何差异?
  • RQ5由 PCA 引导的编辑会带来哪些偏差或纠缠,并且它们如何反映训练数据属性?

主要发现

  • StyleGAN 的 W 空间和 BigGAN 的早层特征中的 PCA 方向揭示了如姿态、性别、照明和背景等主要变异模式。
  • 分层应用 PCA 方向(选择性层范围)可产生更有针对性的编辑,减小非预期的纠缠。
  • BigGAN 可以通过独立的逐层 z 输入适应 StyleGAN 风格的分层控制,从而在不重新训练的情况下实现风格化编辑。
  • 在若干情形下,基于 PCA 的编辑在视觉效果上接近有监督方法,同时保持无监督。
  • StyleGANv2 FFHQ 的前 100 个主成分捕获约 85% 的方差,400 个主成分捕获 98.5%,这表明大多数图像变异位于相对较小的子空间中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。