Skip to main content
QUICK REVIEW

[论文解读] Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation

Peiye Zhuang, Oluwasanmi Koyejo|arXiv (Cornell University)|Feb 1, 2021
Generative Adversarial Networks and Image Synthesis参考文献 36被引用 26
一句话总结

该论文提出了一种用于可控语义图像编辑的潜在空间编辑框架,利用一个联合回归器、多个变换方向以及综合损失以保持身份和真实感,在前期工作基础上实现了更好的解耦和可控性。

ABSTRACT

Controllable semantic image editing enables a user to change entire image attributes with a few clicks, e.g., gradually making a summer scene look like it was taken in winter. Classic approaches for this task use a Generative Adversarial Net (GAN) to learn a latent space and suitable latent-space transformations. However, current approaches often suffer from attribute edits that are entangled, global image identity changes, and diminished photo-realism. To address these concerns, we learn multiple attribute transformations simultaneously, integrate attribute regression into the training of transformation functions, and apply a content loss and an adversarial loss that encourages the maintenance of image identity and photo-realism. We propose quantitative evaluation strategies for measuring controllable editing performance, unlike prior work, which primarily focuses on qualitative evaluation. Our model permits better control for both single- and multiple-attribute editing while preserving image identity and realism during transformation. We provide empirical results for both natural and synthetic images, highlighting that our model achieves state-of-the-art performance for targeted image manipulation.

研究动机与目标

  • 在保持图像身份的同时实现连续的多属性语义编辑。
  • 通过有监督引导在GAN潜在空间中解耦属性变换。
  • 开发全局和局部的潜在空间变换策略以提高手编辑质量。
  • 引入用于可控性和图像身份保持的定量评估指标。

提出的方法

  • 使用固定的GAN,其生成器G和判别器D,以及用于属性的预训练回归器R。
  • 学习潜在空间方向向量T,通过变换度向量ε编辑N个属性。
  • 定义 z' = z + T ε 来编辑潜在编码并合成 G(z) 与 G(z').
  • 最小化加权损失 L = λ1 L_reg + λ2 L_disc + λ3 L_content 以训练 T,同时保持 G、D、R 不变。
  • L_reg 在编辑后在预测属性和目标属性之间使用二元交叉熵。
  • L_disc 使用基于判别器的损失以确保编辑后图像的真实感。
  • L_content(感知损失)通过匹配原始与编辑后图像的特征来保持图像身份。
  • 探索全局(对所有 z 固定)和局部(依赖于 z)的变换 T,这些变换以神经网络或多层感知机实现。
  • 在自然场景和人脸数据集上进行训练和评估, backbone 使用 StyleGAN2/PGGAN。

实验结果

研究问题

  • RQ1是否可以学习潜在空间方向来实现对多属性的可控编辑,而不混淆属性或破坏身份?
  • RQ2将回归器与感知/对抗损失结合是否比以往的潜在空间编辑方法在解耦和真实感方面更优?
  • RQ3局部(依赖于 z 的)变换是否在稳健的多属性编辑方面优于全局方向?
  • RQ4如何设计定量指标来评估语义图像编辑的可控性和身份保持?

主要发现

  • 所提出的模型在单属性和多属性编辑中相比基线实现了更好的可控性和身份保持。
  • 联合训练包含回归器、内容损失和对抗损失,有助于在GAN潜在空间中解耦属性变换。
  • 局部变换可以优于全局变换,提供数据相关的编辑方向,降低混淆。
  • 该方法能够在自然场景和人脸上实现连续属性编辑,同时保持照片级真实感。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。