Skip to main content
QUICK REVIEW

[论文解读] Disentangling in Latent Space by Harnessing a Pretrained Generator.

Yotam Nitzan, Amit H. Bermano|arXiv (Cornell University)|May 15, 2020
Generative Adversarial Networks and Image Synthesis被引用 14
一句话总结

本文提出一种方法,利用预训练的无条件生成器(如StyleGAN)在潜在空间中学习解耦表示,将解耦过程与生成过程分离。通过将数据映射到生成器的潜在空间,该方法在极少监督下实现了身份与其他面部属性的最先进解耦,优于需要大量训练和监督的方法。

ABSTRACT

Learning disentangled representations of data is a fundamental problem in artificial intelligence. Specifically, disentangled latent representations allow generative models to control and compose the disentangled factors in the synthesis process. Current methods, however, require extensive supervision and training, or instead, noticeably compromise quality. In this paper, we present a method that learns how to represent data in a disentangled way, with minimal supervision, manifested solely using available pre-trained networks. Our key insight is to decouple the processes of disentanglement and synthesis, by employing a leading pre-trained unconditional image generator, such as StyleGAN. By learning to map into its latent space, we leverage both its state-of-the-art quality, and its rich and expressive latent space, without the burden of training it. We demonstrate our approach on the complex and high dimensional domain of human heads. We evaluate our method qualitatively and quantitatively, and exhibit its success with de-identification operations and with temporal identity coherency in image sequences. Through extensive experimentation, we show that our method successfully disentangles identity from other facial attributes, surpassing existing methods, even though they require more training and supervision.

研究动机与目标

  • 解决在高维数据中以极少监督学习解耦表示的挑战。
  • 将解耦过程与图像生成过程解耦,避免从零开始训练生成器。
  • 利用预训练的无条件生成器(如StyleGAN)的高质量、高表达力的潜在空间进行解耦表示学习。
  • 实现在图像合成中对解耦因子(如身份和属性)的可控控制。
  • 在去标识化和图像序列中的时间一致性身份保持等应用中展示有效性。

提出的方法

  • 该方法将输入数据映射到预训练无条件生成器(如StyleGAN)的潜在空间,以利用其高保真度生成能力。
  • 通过训练一个映射网络,在预训练生成器的潜在空间内学习将身份与其他面部属性解耦。
  • 该方法避免重新训练生成器,从而保留其最先进图像质量和表达力。
  • 映射网络以极少监督进行训练,仅依赖可用的标注或弱信号来引导解耦。
  • 解耦的潜在码支持可控图像合成,例如在保持身份不变的同时编辑属性。
  • 该方法在人脸图像上进行评估,展示了在去标识化和身份一致的视频生成方面的鲁棒性。

实验结果

研究问题

  • RQ1是否可以仅使用预训练生成器、无需重新训练,就在潜在空间中学习到解耦表示?
  • RQ2在极少监督下,身份能否与其它面部属性实现良好解耦?
  • RQ3该方法是否能优于那些需要更多训练和监督的现有方法?
  • RQ4该方法在实现可控编辑解耦因子的同时,是否仍能保持高图像质量?
  • RQ5解耦表示是否能支持去标识化和时间上身份一致等实际应用?

主要发现

  • 该方法在极少监督下成功实现了高维人脸数据中身份与其他属性的解耦。
  • 尽管现有方法需要显著更多的训练和监督,该方法在解耦性能上仍优于它们。
  • 通过利用预训练生成器的生成能力,该方法保持了最先进图像质量。
  • 解耦表示支持有效的去标识化,即在保留面部结构和属性的同时移除身份信息。
  • 该方法在图像序列中展示了时间上的一致身份,即在属性编辑过程中保持帧间身份稳定。
  • 定量评估证实,尽管训练设置轻量化,该方法在解耦度量上仍优于先前方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。