[论文解读] Generative Adversarial Text to Image Synthesis
论文提出了一种文本条件 GAN 架构,能够从自然语言描述生成图像,在鸟类和花卉的零样本和细粒度合成方面有所展示,具备匹配感知判别器和基于插值的正则化。
Automatic synthesis of realistic images from text would be interesting and useful, but current AI systems are still far from this goal. However, in recent years generic and powerful recurrent neural network architectures have been developed to learn discriminative text feature representations. Meanwhile, deep convolutional generative adversarial networks (GANs) have begun to generate highly compelling images of specific categories, such as faces, album covers, and room interiors. In this work, we develop a novel deep architecture and GAN formulation to effectively bridge these advances in text and image model- ing, translating visual concepts from characters to pixels. We demonstrate the capability of our model to generate plausible images of birds and flowers from detailed text descriptions.
研究动机与目标
- 通过从人类编写的描述生成图像来桥接文本和图像模态。
- 开发一个文本编码器,提供用于图像合成的判别性特征。
- 创建一个以文本为条件的GAN框架,生成可信且类别一致的图像。
- 通过稳定学习的训练技术解决文本条件图像生成中的多模态问题。
提出的方法
- 使用一个基于文本嵌入的 DCGAN 架构,该嵌入由混合字符级 CNN-RNN 编码器生成。
- 引入一个匹配感知判别器(GAN-CLS),它还使用匹配、不匹配和生成对来对文本-图像兼容性进行评分。
- 通过在文本嵌入之间进行插值来加入流形插值正则化项(GAN-INT),以促使生成器覆盖数据流形。
- 将两者结合(GAN-INT-CLS),以提高真实感和文本对齐。
- 可选地将生成器反置以实现风格转移,通过学习一个将图像映射回生成器的噪声向量的风格编码器。
实验结果
研究问题
- RQ1文本条件 GAN 能否在鸟类和花卉等细粒度类别上同时建模图像真实感和文本-图像对齐?
- RQ2在以文本描述为条件时,匹配感知判别是否能提升合成效果?
- RQ3在文本嵌入空间中进行插值(流形插值)是否能提升样本质量和多样性?
- RQ4模型是否能推广到零样本文本到图像生成以及像 MS COCO 这样的多目标场景?
主要发现
- 该模型可以在文本条件下合成鸟类和花卉的可信的64x64图像。
- GAN-INT 和 GAN-INT-CLS 在视觉可信度和与描述的一致性方面显著优于基线 GANs 和 GAN-CLS。
- 匹配感知判别器(GAN-CLS)提供一个明确的文本-图像兼容性信号,有助于学习。
- 在文本嵌入之间插值(GAN-INT)有助于覆盖数据流形并改进结果,包括零样本类别。
- 该方法对 MS COCO 等具有多对象和不同背景的图像显示了定性结果的泛化能力。
- 可以实现风格与内容的解耦,从而通过从真实图像推断潜在风格实现风格迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。