Skip to main content
QUICK REVIEW

[论文解读] Edge Guided GANs with Semantic Preserving for Semantic Image Synthesis

Hao Tang, Xiaojuan Qi|arXiv (Cornell University)|Mar 31, 2020
Generative Adversarial Networks and Image Synthesis参考文献 68被引用 29
一句话总结

本文提出EdgeGAN,一种新颖的生成对抗网络(GAN)框架,通过使用边缘图作为中间引导,提升图像的结构细节与语义一致性,从而改善照片级真实感的语义图像合成。通过整合注意力引导的边缘迁移模块与类别相关特征增强机制,EdgeGAN在两个基准数据集上超越了当前最先进方法,生成的图像更清晰、语义更准确,局部细节更丰富,且减少了物体缺失错误。

ABSTRACT

We propose a novel Edge guided Generative Adversarial Network (EdgeGAN) for photo-realistic image synthesis from semantic layouts. Although considerable improvement has been achieved, the quality of synthesized images is far from satisfactory due to two largely unresolved challenges. First, the semantic labels do not provide detailed structural information, making it difficult to synthesize local details and structures. Second, the widely adopted CNN operations such as convolution, down-sampling and normalization usually cause spatial resolution loss and thus are unable to fully preserve the original semantic information, leading to semantically inconsistent results (e.g., missing small objects). To tackle the first challenge, we propose to use the edge as an intermediate representation which is further adopted to guide image generation via a proposed attention guided edge transfer module. Edge information is produced by a convolutional generator and introduces detailed structure information. Further, to preserve the semantic information, we design an effective module to selectively highlight class-dependent feature maps according to the original semantic layout. Extensive experiments on two challenging datasets show that the proposed EdgeGAN can generate significantly better results than state-of-the-art methods. The source code and trained models are available at this https URL.

研究动机与目标

  • 为解决语义标签提供的结构信息不足导致语义图像生成中局部细节合成质量差的问题。
  • 缓解标准卷积神经网络(CNN)操作(如池化和归一化)引起的特征空间分辨率损失所导致的语义不一致问题。
  • 通过在生成过程中保留细粒度的结构与语义细节,提升图像质量。
  • 开发一种利用边缘图作为中间表示来引导高保真图像生成的方法。

提出的方法

  • 一个卷积生成器从输入的语义布局生成边缘图,作为结构引导。
  • 一个注意力引导的边缘迁移模块在各网络层之间对齐并传递边缘特征,以在图像生成过程中保留精细细节。
  • 一个类别相关的特征增强模块根据原始语义布局选择性地增强特征图,以维持语义一致性。
  • 生成器在生成对抗网络(GAN)框架下与判别器端到端联合训练,同时优化真实感与结构保真度。
  • 通过多流特征细化机制,整合边缘监督与语义保持。
  • 该框架在两个具有挑战性的语义图像合成基准上进行训练与评估,以验证性能。

实验结果

研究问题

  • RQ1边缘图能否有效作为中间表示,以改善语义图像生成中的局部结构合成?
  • RQ2尽管CNN操作导致分辨率损失,如何在图像生成过程中保持语义一致性?
  • RQ3与标准GAN相比,边缘引导的特征迁移在多大程度上提升了生成图像的保真度与真实感?
  • RQ4类别相关的特征增强机制能否减少因语义不一致导致的物体缺失或误分类?
  • RQ5边缘引导与语义保持的整合是否能带来相较于最先进方法的可测量性能提升?

主要发现

  • EdgeGAN在两个具有挑战性的语义图像合成基准上,相比最先进方法实现了更优的图像质量。
  • 该模型显著减少了因语义保持能力提升而导致的小型物体缺失或误分类现象。
  • 注意力引导的边缘迁移模块增强了局部结构细节,使纹理与形状更清晰、更逼真。
  • 定量指标显示FID及其他评估分数持续提升,表明生成图像更具真实感与保真度。
  • 消融实验确认,边缘引导与语义保持两个组件对最优性能均不可或缺。
  • 源代码与预训练模型已公开,支持可复现性与进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。