QUICK REVIEW

[论文解读] Text to Image Synthesis Using Generative Adversarial Networks

Cristian Bodnar|arXiv (Cornell University)|Jan 1, 2018

Generative Adversarial Networks and Image Synthesis参考文献 22被引用 30

一句话总结

本文提出 Wasserstein GAN-CLS，一种使用Wasserstein距离的条件生成对抗网络，以实现文本到图像合成中的稳定训练。通过将该损失函数整合到渐进式增长生成对抗网络（Progressive Growing GAN）框架中，该模型在Caltech-10k Birds数据集上的Inception Score相比先前仅使用句子级语义的模型提升了7.07%，在性能上优于现有方法，仅略逊于使用词级注意力机制的AttnGAN。

ABSTRACT

Generating images from natural language is one of the primary applications of recent conditional generative models. Besides testing our ability to model conditional, highly dimensional distributions, text to image synthesis has many exciting and practical applications such as photo editing or computer-aided content creation. Recent progress has been made using Generative Adversarial Networks (GANs). This material starts with a gentle introduction to these topics and discusses the existent state of the art models. Moreover, I propose Wasserstein GAN-CLS, a new model for conditional image generation based on the Wasserstein distance which offers guarantees of stability. Then, I show how the novel loss function of Wasserstein GAN-CLS can be used in a Conditional Progressive Growing GAN. In combination with the proposed loss, the model boosts by 7.07% the best Inception Score (on the Caltech birds dataset) of the models which use only the sentence-level visual semantics. The only model which performs better than the Conditional Wasserstein Progressive Growing GAN is the recently proposed AttnGAN which uses word-level visual semantics as well.

研究动机与目标

通过采用更稳定的损失函数，解决条件生成对抗网络在文本到图像合成中的训练不稳定性问题。
通过条件生成模型提升图像质量，并增强文本描述与生成图像之间的对齐程度。
在细粒度图像生成任务中提升性能，特别是在Caltech-10k Birds等复杂数据集上。
将Wasserstein GAN损失整合到渐进式增长框架中，以实现高分辨率图像合成并提升训练稳定性。
证明仅使用句子级语义建模的模型，若结合稳定训练目标，可实现强性能表现，接近当前最先进水平。

提出的方法

提出Wasserstein GAN-CLS，一种条件生成对抗网络变体，通过在判别器上施加Lipschitz约束，利用Wasserstein距离实现训练稳定。
将Wasserstein GAN损失适配于文本到图像匹配任务，通过同时对真实图像及其对应的文本嵌入进行条件化来实现。
将Wasserstein GAN-CLS损失整合到渐进式增长生成对抗网络（PGGAN）架构中，采用从低分辨率到高分辨率的分阶段训练策略。
在生成器中使用层归一化，以缓解高分辨率下小批量大小带来的限制，提升训练稳定性。
采用Adam优化器并设置特定超参数（Wasserstein训练时β1 = 0，β2 = 0.99；最小二乘损失训练时β1 = 0.5，β2 = 0.9），并引入梯度惩罚（λ = 150）以强制实现Lipschitz约束。
采用WGAN-GP风格的梯度惩罚，ρ = 8，以确保判别器保持1-Lipschitz性质，从而提升训练稳定性与模式覆盖能力。

实验结果

研究问题

RQ1与标准生成对抗网络相比，Wasserstein GAN损失是否能提升条件文本到图像合成中的训练稳定性和性能？
RQ2将Wasserstein GAN-CLS损失整合到渐进式增长生成对抗网络架构中，在细粒度数据集上能否显著提升图像质量与多样性？
RQ3仅使用句子级视觉语义的模型性能与采用词级注意力机制的最先进模型相比如何？
RQ4使用如Wasserstein GAN-CLS这类稳定损失函数，是否能实现更高分辨率图像生成中的更好收敛性与更高的Inception Score？
RQ5渐进式增长与Wasserstein训练的结合是否能克服模式崩溃问题，从而提升生成图像的保真度与多样性？

主要发现

条件Wasserstein渐进式增长生成对抗网络（CWPGGAN）在64×64分辨率的Caltech-10k Birds数据集上实现了88.72的Inception Score，相比先前仅使用句子级语义的最优模型提升了7.07%。
CWPGGAN在所有仅使用句子级视觉语义的模型中表现最优，仅低于使用词级注意力机制的AttnGAN，后者取得了更高的分数。
该模型生成的图像具有高保真度与多样性，且与文本描述高度对齐，经由定性比较与最近邻分析验证。
模型潜在空间中的插值产生语义上连贯的过渡，表明其学习到的表征具有解耦性与平滑性。
通过引入层归一化与稳定损失函数，模型可在高分辨率（256×256）下实现有效训练，而传统批量归一化在小批量设置下会失效。
Inception Score结果表明，CWPGGAN在泛化能力上优于基线模型，尤其在复杂、细粒度的数据集上，其类别多样性与图像质量均有显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。