Skip to main content
QUICK REVIEW

[论文解读] StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

Han Zhang, Tao Xu|arXiv (Cornell University)|Dec 9, 2016
Generative Adversarial Networks and Image Synthesis被引用 227
一句话总结

StackGAN 通过将任务分解为阶段 I(草图)和阶段 II(细化)GAN,从文本生成 256x256 的照片级真实图像,并通过条件化增强来提升多样性和稳定性。

ABSTRACT

Synthesizing high-quality images from text descriptions is a challenging problem in computer vision and has many practical applications. Samples generated by existing text-to-image approaches can roughly reflect the meaning of the given descriptions, but they fail to contain necessary details and vivid object parts. In this paper, we propose Stacked Generative Adversarial Networks (StackGAN) to generate 256x256 photo-realistic images conditioned on text descriptions. We decompose the hard problem into more manageable sub-problems through a sketch-refinement process. The Stage-I GAN sketches the primitive shape and colors of the object based on the given text description, yielding Stage-I low-resolution images. The Stage-II GAN takes Stage-I results and text descriptions as inputs, and generates high-resolution images with photo-realistic details. It is able to rectify defects in Stage-I results and add compelling details with the refinement process. To improve the diversity of the synthesized images and stabilize the training of the conditional-GAN, we introduce a novel Conditioning Augmentation technique that encourages smoothness in the latent conditioning manifold. Extensive experiments and comparisons with state-of-the-arts on benchmark datasets demonstrate that the proposed method achieves significant improvements on generating photo-realistic images conditioned on text descriptions.

研究动机与目标

  • 激励并解决从文本描述生成高分辨率、照片级真实图像的难题。
  • 将文本转图像的合成分解为两个可管理阶段,以提升细节和保真度。
  • 通过条件化增强(CA)实现训练稳定性和多样性的提升。
  • 在标准数据集上展示相对于先前文本到图像方法的定量和定性改进。

提出的方法

  • 提出 StackGAN 架构,阶段 I 生成以文本为条件的低分辨率草图。
  • 阶段 II 对阶段 I 的输出进行细化并添加细节,生成高分辨率图像,条件包括阶段 I 的结果和文本。
  • 引入条件化增强,从由文本嵌入参数化的高斯分布中采样随机条件变量,并加入 KL 散度正则化项。
  • 使用匹配感知判别器,在两个阶段中更好地使图像与文本描述保持一致。
  • 通过阶段 I 和阶段 II 的分阶段对抗损失进行训练,使用 ADAM 优化器以及标准 GAN 训练过程。

实验结果

研究问题

  • RQ1比单阶段方法,二阶段堆叠 GAN 框架是否能生成更高分辨率、更加真实且以文本为条件的图像?
  • RQ2条件化增强是否在文本生成图像的条件 GAN 中提升多样性并稳定训练?
  • RQ3阶段 II 的细化如何纠正阶段 I 的缺陷并增加细节以实现 256x256 的真实感?

主要发现

  • StackGAN 在文本描述条件下实现了 256x256 的照片级真实图像,在多个数据集上超越了最先进的方法。
  • 条件化增强提升了训练稳定性和样本多样性,通过更高的 Inception 分数和多样化输出得到证明。
  • 阶段 II 的细化通过纠正阶段 I 的缺陷并添加与文本一致的细节,持续改善图像质量。
  • 在 CUB、Oxford-102 和 COCO 上,Inception 分数和人工评估均显示 StackGAN 优于 GAN-INT-CLS 和 GAWWN。
  • 阶段 I 单独很难生成可信的高分辨率图像,而 StackGAN 的两阶段设计带来更优越的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。