Skip to main content
QUICK REVIEW

[论文解读] Swapping Autoencoder for Deep Image Manipulation

Taesung Park, Jun-Yan Zhu|arXiv (Cornell University)|Jul 1, 2020
Generative Adversarial Networks and Image Synthesis参考文献 88被引用 145
一句话总结

交换式自编码器学习两个解耦的潜在表示(结构与纹理),通过纹理/结构交换和潜在空间运算实现真实感图像编辑,测试时嵌入速度比此前的基于GAN的方法更快。

ABSTRACT

Deep generative models have become increasingly effective at producing realistic images from randomly sampled seeds, but using such models for controllable manipulation of existing images remains challenging. We propose the Swapping Autoencoder, a deep model designed specifically for image manipulation, rather than random sampling. The key idea is to encode an image with two independent components and enforce that any swapped combination maps to a realistic image. In particular, we encourage the components to represent structure and texture, by enforcing one component to encode co-occurrent patch statistics across different parts of an image. As our method is trained with an encoder, finding the latent codes for a new input image becomes trivial, rather than cumbersome. As a result, it can be used to manipulate real input images in various ways, including texture swapping, local and global editing, and latent code vector arithmetic. Experiments on multiple datasets show that our model produces better results and is substantially more efficient compared to recent generative models.

研究动机与目标

  • 解决使用深度生成模型对现有图像进行编辑而无需为每个任务重新训练的挑战。
  • 学习一个解耦的潜在空间,其中一个码表示结构,另一个表示纹理,从而实现真实的交换。
  • 提供一个编码器–解码器框架,支持对真实图像进行快速嵌入和多样的编辑(全局/局部、纹理迁移和潜在算术)。

提出的方法

  • 提出带有编码器 E 和生成器 G 的交换式自编码器,其架构基于 StyleGAN2。
  • 将潜在码 z 划分为结构码 zs(空间张量)和纹理码 yt(全局向量)。
  • 使用重建损失 Lrec 进行训练,以确保输入的准确重建。
  • 使用 GAN 损失:LGAN,rec 以确保重建的真实感,以及 LGAN,swap 以确保交换得到的混合结果(来自一个图像的 zs 与来自另一个图像的 yt)的真实感。
  • 引入一个补丁共现判别器 Dpatch,强制交换输出的补丁在纹理统计上与源纹理图像的补丁一致。
  • 优化总损失 Ltotal = Lrec + 0.5 LGAN,rec + 0.5 LGAN,swap + LCooccurGAN。
  • 边界情况:保持 zs 局部以保留结构;yt 强制全局纹理一致性;架构遵循全卷积流水线,支持高分辨率编辑。

实验结果

研究问题

  • RQ1无监督自编码器是否能够学习可分离的结构和纹理编码,从而通过代码交换实现真实感的图像编辑?
  • RQ2共现补丁判别器是否提高纹理码的可解释性和可编辑性?
  • RQ3测试时嵌入是否足够快速且准确,适用于实际的图像操作应用?
  • RQ4潜在空间操作(纹理/结构交换与向量运算)在不同数据集上的性能如何?
  • RQ5由此得到的嵌入空间是否适用于局部和全局编辑以及多域变换?

主要发现

  • 该模型通过交换结构和纹理编码来实现真实感的图像混合,同时在适当位置保留纹理与结构。
  • 测试时嵌入显著更快(大约 1000 倍),比基于优化的基线更快,并在各数据集上实现有竞争力的重建质量(LPIPS)。
  • 人类感知研究表明,在 Church、FFHQ 和 Waterfall 数据集上,交换自编码器在交换生成图像的真实感方面优于基线(AMT 欺骗率:Church 31.3%,FFHQ 19.4%,Waterfall 41.8%;平均 31.0%)。
  • 潜在空间操作产生平滑且可控的编辑,包括基于区域的编辑和域转换,通过纹理与结构空间中的向量运算实现。
  • 该方法支持多域、细粒度编辑和连续变换(例如添加雪景),通过域间的均值差向量实现。
  • 与 Im2StyleGAN、StyleGAN2、STROTSS 和 WCT 2 相比,在图像混合的感知真实感方面达到更高水平,在用户研究中实现更好的风格-内容平衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。