Skip to main content
QUICK REVIEW

[论文解读] High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

Ting-Chun Wang, Ming-Yu Liu|arXiv (Cornell University)|Nov 30, 2017
Generative Adversarial Networks and Image Synthesis被引用 300
一句话总结

本文提出一个条件GAN框架,能够从语义标签映射合成2048×1024的写实图像,使用一个粗到细生成器、多尺度判别器,以及带可选感知与特征匹配损失的对抗目标。它还实现了实例感知的操作和多样化输出,便于交互式编辑。

ABSTRACT

We present a new method for synthesizing high-resolution photo-realistic images from semantic label maps using conditional generative adversarial networks (conditional GANs). Conditional GANs have enabled a variety of applications, but the results are often limited to low-resolution and still far from realistic. In this work, we generate 2048x1024 visually appealing results with a novel adversarial loss, as well as new multi-scale generator and discriminator architectures. Furthermore, we extend our framework to interactive visual manipulation with two additional features. First, we incorporate object instance segmentation information, which enables object manipulations such as removing/adding objects and changing the object category. Second, we propose a method to generate diverse results given the same input, allowing users to edit the object appearance interactively. Human opinion studies demonstrate that our method significantly outperforms existing methods, advancing both the quality and the resolution of deep image synthesis and editing.

研究动机与目标

  • 推动从语义标签映射进行高分辨率、真实感强的图像合成,超越此前的低分辨率结果。
  • 开发一个鲁棒的条件GAN框架,含粗到细生成器和多尺度判别器,输出2048×1024。
  • 将实例级分割信息融入以实现对象级操作,如添加/移除对象以及改变类别。
  • 通过学习实例级特征嵌入并对它们进行聚类以实现可控的变化,启用多样化、交互式的图像生成。

提出的方法

  • 使用一个粗到细生成器,具备在1024×512的全局网络和提升至2048×1024的局部增强网络。
  • 采用在不同图像尺度上运行的三个多尺度判别器,以引导全局一致性和细节纹理。
  • 引入判别器特征匹配损失,以稳定训练并在各尺度之间促使自然统计。
  • 通过在输入中添加实例边界信息,融入实例图,提高对象边界与相邻对象的可分离性。
  • 添加通过编码器学习的实例级特征嵌入,并使用K-means聚类,以实现每个对象实例的多样、可控外观。

实验结果

研究问题

  • RQ1条件GAN是否能够从语义标签映射生成高分辨率、真实感强的图像?
  • RQ2使用粗到细生成器和多尺度判别器是否在高分辨率下提升真实感与全局一致性?
  • RQ3包含实例级信息是否能改善对象边界并实现交互式编辑?
  • RQ4学习到的实例级特征是否能为单个对象提供多样、可控的外观变化?

主要发现

  • 所提出的方法生成高分辨率(2048×1024)图像,真实感优于先前方法。
  • 实例级分割信息在相邻对象场景中使对象边界更清晰、真实感提升。
  • 多尺度判别器结合特征匹配损失稳定训练并在分割精度指标上优于基线。
  • 该方法在合成图像上的语义分割分数更高,在基准评估中接近真实图像(Oracle)的水平。
  • 通过操作实例特征和标签实现交互式对象编辑与多样输出,能够实时添加/移除对象和改变外观。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。