Skip to main content
QUICK REVIEW

[论文解读] Text-Adaptive Generative Adversarial Networks: Manipulating Images with Natural Language

Seonghyeon Nam, Yunji Kim|arXiv (Cornell University)|Oct 28, 2018
Generative Adversarial Networks and Image Synthesis参考文献 27被引用 107
一句话总结

TAGAN 使用文本自适应判别器,结合基于单词级的局部判别器,在保留与文本无关的内容的同时,操控文本所指定的图像属性,在 CUB 与 Oxford-102 上优于基线方法。

ABSTRACT

This paper addresses the problem of manipulating images using natural language description. Our task aims to semantically modify visual attributes of an object in an image according to the text describing the new visual appearance. Although existing methods synthesize images having new attributes, they do not fully preserve text-irrelevant contents of the original image. In this paper, we propose the text-adaptive generative adversarial network (TAGAN) to generate semantically manipulated images while preserving text-irrelevant contents. The key to our method is the text-adaptive discriminator that creates word-level local discriminators according to input text to classify fine-grained attributes independently. With this discriminator, the generator learns to generate images where only regions that correspond to the given text are modified. Experimental results show that our method outperforms existing methods on CUB and Oxford-102 datasets, and our results were mostly preferred on a user study. Extensive analysis shows that our method is able to effectively disentangle visual attributes and produce pleasing outputs.

研究动机与目标

  • 以自然语言描述为引导,推动语义图像操控。
  • 在仅改变文本描述的属性的同时,保留与文本无关的内容。
  • 开发一种文本自适应判别器,向生成器提供细粒度反馈。
  • 与最先进的文本到图像方法进行对比评估,并展示在保留性和真实感方面的改进。

提出的方法

  • 引入一个文本自适应判别器,由附着到输入文本中相应单词的逐词局部判别器组成。
  • 结合文本注意力聚合逐词分数,生成最终的真/假判定,并实现细粒度的属性操作。
  • 使用对图像与文本进行编码(双向 RNN)的生成器,并应用残差块来修改属性,同时通过重构损失重构文本无关的内容。
  • 融入多尺度图像特征,使判别器能够关注不同视觉尺度的属性。
  • 使用无条件 GAN 损失、文本条件损失和重构损失进行训练,并且不直接因不稳定性而惩罚条件判别器。

实验结果

研究问题

  • RQ1文本自适应的逐词级判别器是否能够在不改变无关内容的情况下,对文本描述的图像属性进行精确操控?
  • RQ2与句子级条件相比,多尺度判别器和文本注意力是否提升了属性解耦和视觉真实感?
  • RQ3相比基线方法,TAGAN 在保留原始内容的同时实现有针对性的属性变化方面表现如何?

主要发现

  • 在用户研究中,TAGAN 在 CUB 与 Oxford-102 的属性操控准确性和自然性方面超过 SISGAN 和 AttnGAN。
  • 在正文本重构上,TAGAN 获得更低的 L2 重构误差,表明更好地保留文本无关内容。
  • 定性结果显示在保持背景和未描述区域的同时,属性变化准确。
  • 消融实验表明多尺度判别器(conv3、conv4、conv5)在处理粗粒度和细粒度属性方面有所提升。
  • 文本插值实验显示属性变化平滑,同时不丢失原始内容。
  • 该方法在图像-文本检索方面具有竞争力的表现,并在定性方面优于基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。