QUICK REVIEW

[论文解读] Invertible Conditional GANs for image editing

Guim Perarnau, Joost van de Weijer|arXiv (Cornell University)|Nov 19, 2016

Generative Adversarial Networks and Image Synthesis参考文献 12被引用 584

一句话总结

IcGAN 将编码器与条件 GAN 结合，将真实图像映射到潜在空间，并通过条件属性对它们进行编辑，从而实现确定性、复杂的图像修改。

ABSTRACT

Generative Adversarial Networks (GANs) have recently demonstrated to successfully approximate complex data distributions. A relevant extension of this model is conditional GANs (cGANs), where the introduction of external information allows to determine specific representations of the generated images. In this work, we evaluate encoders to inverse the mapping of a cGAN, i.e., mapping a real image into a latent space and a conditional representation. This allows, for example, to reconstruct and modify real images of faces conditioning on arbitrary attributes. Additionally, we evaluate the design of cGANs. The combination of an encoder with a cGAN, which we call Invertible cGAN (IcGAN), enables to re-generate real images with deterministic complex modifications.

研究动机与目标

通过将推断（编码器）与条件图像生成结合，激发并实现复杂的图像编辑。
学习将真实图像映射到潜在 z 和条件 y 空间，以实现可控编辑。
评估编码器设计及条件信息在 GAN 架构中的放置位置。
在 MNIST 和 CelebA 数据集上演示编辑，并分析重建质量与属性控制。

提出的方法

介绍 IcGAN，将编码器与 cGAN 集成以获得 (z, y) = E(x) 且重建图像 x' = G(z, y)。
将 E 分成两部分训练：Ez 用于从 G(z, y′) 的输出中还原潜在变量 z，Ey 用于从真实图像中还原属性 y。
研究编码器设计（SNG、IND、IND-COND），并发现 IND 最有效。
探讨 cGAN 的两个设计决策：在生成器和判别器中放置条件向量 y 的最佳位置，以及从 py 采样 y′。
使用属性预测器（Anet）评估 cGAN 条件化，以衡量生成图像对条件属性的反映程度。
使用 CelebA 和 MNIST 数据集验证重建质量和属性操作。

实验结果

研究问题

RQ1是否可以学习一个编码器来反转条件 GAN，并从真实图像中恢复潜在变量和属性表示？
RQ2将条件信息 y 融入生成器和判别器以最大化属性保真度的最佳策略是什么？
RQ3哪种编码器结构（SNG、IND、IND-COND）能给出最准确的潜在变量和属性重建？
RQ4IcGANs 在 MNIST 和 CelebA 上重建真实图像并实现可控属性修改的效果如何？
RQ5对潜在变量 z 和属性 y 进行插值或置换是否能产生合理且平滑的图像过渡？

主要发现

模型	判别器的平均准确率	判别器的平均 F1-分数	生成器的平均准确率	生成器的平均 F1-分数
CelebA test set	92.78%	71.47%	92.78%	71.47%
$y$ inserted on input	85.74%	49.63%	89.83%	59.69%
y inserted on layer 1	86.01%	52.42%	87.16%	52.40%
layer 2	84.90%	50.00%	82.49%	52.36%
layer 3	85.96%	52.38%	82.49%	38.01%
layer 4	77.61%	19.49%	73.90%	4.03%

IcGAN 使将真实图像映射到潜在 z 和属性 y 成为可能，从而实现重建和基于属性的复杂编辑。
最佳的 cGAN 条件化位置是在生成器输入处插入 y，以及在判别器的第一层中插入 y，以获得更高的属性保真度。
两个独立的编码器（IND）用于 z 和 y，在测试的配置中提供了最低的重建误差。
在 CelebA 生成图像的 y 条件下，属性预测准确率在属性平均准确率上约为 86%，当 y 在网络中较早处进行条件化时，保真度更高。
IcGAN 重建保留高层特征，并在 CelebA 和 MNIST 上实现有意义的属性编辑，具有跨真实图像的平滑插值和属性转移。
重建样本表明模型具备超出训练数据的泛化能力，通过对未见真实图像的成功操作得到证据。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。