Skip to main content
QUICK REVIEW

[论文解读] AttentionGAN: Unpaired Image-to-Image Translation using Attention-Guided Generative Adversarial Networks

Hao Tang, Hong Liu|arXiv (Cornell University)|Nov 27, 2019
Generative Adversarial Networks and Image Synthesis参考文献 4被引用 41
一句话总结

AttentionGAN 引入了带有注意力引导的生成器和判别器,使其能够在未配对的图像到图像翻译中聚焦前景的变化,同时保留背景,在多个数据集上实现更锐利、更逼真的结果。

ABSTRACT

State-of-the-art methods in image-to-image translation are capable of learning a mapping from a source domain to a target domain with unpaired image data. Though the existing methods have achieved promising results, they still produce visual artifacts, being able to translate low-level information but not high-level semantics of input images. One possible reason is that generators do not have the ability to perceive the most discriminative parts between the source and target domains, thus making the generated images low quality. In this paper, we propose a new Attention-Guided Generative Adversarial Networks (AttentionGAN) for the unpaired image-to-image translation task. AttentionGAN can identify the most discriminative foreground objects and minimize the change of the background. The attention-guided generators in AttentionGAN are able to produce attention masks, and then fuse the generation output with the attention masks to obtain high-quality target images. Accordingly, we also design a novel attention-guided discriminator which only considers attended regions. Extensive experiments are conducted on several generative tasks with eight public datasets, demonstrating that the proposed method is effective to generate sharper and more realistic images compared with existing competitive models. The code is available at https://github.com/Ha0Tang/AttentionGAN.

研究动机与目标

  • 通过将变化聚焦在辨别性前景内容上来提升未配对图像到图像翻译,同时保留背景。
  • 开发一个在没有额外监督的情况下能够学习前景与背景注意力的带注意力引导的 GAN 框架。
  • 提出两种生成方案(I 和 II)以应对简单和复杂语义翻译。
  • 通过循环一致性和新颖的带注意力引导的判别器来对训练进行正则化,以稳定学习。

提出的方法

  • 使用两个带注意力引导的生成器(G 和 F),具有专用的注意力和内容掩码以生成最终输出。
  • 方案 I 使用一个网络同时生成注意力掩码和内容掩码,并通过 G(x)=C_y*A_y + x*(1-A_y) 将掩码与输入图像融合;对于 F(y) 亦同理。
  • 方案 II 采用分离的子网络用于注意力与内容掩码(G_E、G_A、G_C),并学习多个前景内容掩码以及一个背景注意力掩码,以实现更丰富的多掩码生成(G(x) = sum_f=1^{n-1} C_y^f*A_y^f + x*A_y^b)。
  • 注意力掩码和内容掩码在循环一致性损失(改进的 VIA 方案)和对抗损失下共同学习。
  • 带注意力的判别器 D_YA 和 D_XA 以注意力掩码为输入,将判别焦点放在被关注的区域。
  • 正则化包括对注意力掩码的总变差损失以及像素级身份损失以稳定训练。

实验结果

研究问题

  • RQ1带注意力引导的 GAN 能否通过将变化聚焦在辨别性前景区域并在保持背景的同时实现未配对图像翻译?
  • RQ2将注意力生成与内容生成分离(方案 II)是否在复杂翻译(例如从马到斑马)上比方案 I 产生更优的结果?
  • RQ3与标准 GAN 判别器相比,带注意力引导的判别器如何影响翻译质量和减少伪影?
  • RQ4八个公开数据集是否足以证明 AttentionGAN 在面部、自然场景和艺术作品等方面的普适性?
  • RQ5多掩码生成(前景/内容)对翻译性能和输出多样性有何影响?

主要发现

  • AttentionGAN 产生更清晰、更逼真的图像,并在保留背景方面在多个数据集上优于竞争基线。
  • 方案 II 使用分离的前景和内容网络以及多掩码,在如马到斑马等复杂翻译上优于方案 I。
  • 带注意力引导的判别器有助于将对抗博弈聚焦在被关注区域,从而提高目标变换的保真度。
  • 在八个数据集上进行的大量实验,包括面部、动物、地图和风格迁移,显示出最先进的性能,并且不需要额外监督来获得注意力掩码。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。