Skip to main content
QUICK REVIEW

[论文解读] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Axel Sauer, Tero Karras|arXiv (Cornell University)|Jan 23, 2023
Generative Adversarial Networks and Image Synthesis被引用 61
一句话总结

StyleGAN-T 使 StyleGAN-XL 适用于大规模文本到图像生成,在单次推理中实现快速(大约每张图像0.1秒),具备强文本对齐并在低分辨率下保持与高质量竞争力,同时在该领域率先展示基于 GAN 的性能超过扩散模型。

ABSTRACT

Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.

研究动机与目标

  • 在非常大规模的数据集上,激发对快速、可扩展的文本到图像合成的需求。
  • 通过重新设计生成器和判别器以实现文本条件合成,提升 GAN 的竞争力。
  • 在固定算力预算下提升文本对齐,同时保持多样化的图像输出。
  • 实现相对于文本条件的可控变体和实际潜在空间的操作。

提出的方法

  • 以 StyleGAN-XL 为灵感的基础架构,具备非等变的 StyleGAN2 风格生成器主干。
  • 通过带有 GroupNorm 与 Layer Scale 的残差块来提升生成器容量以稳定训练。
  • 通过绕过映射网络并使用二阶风格交互 s = s1 ⊗ s2 + s3 来增强文本条件。
  • 使用 ViT-S 主干、五个并行头部以及可微分增强来重新设计判别器。
  • 在训练中整合基于 CLIP 的引导以将图像与文本提示对齐(L_CLIP),并进行仔细加权。
  • 在推理阶段通过逐步朝向每个提示的均值 w̄,在 w = [f(z), c_text] 中实现截断,并采用两阶段文本编码器策略以进一步提高文本对齐。

实验结果

研究问题

  • RQ1在实际预算下,能否使 GAN 与扩散模型在大规模文本到图像合成方面具有竞争力?
  • RQ2哪些生成器/判别器设计选项能够在基于 GAN 的文本到图像中实现强文本对齐和可控变体?
  • RQ3CLIP 指导损失和截断如何影响 GAN 的图像保真度和文本对齐?
  • RQ4训练阶段策略(文本编码器训练与否、生成器训练)对 CLIP 对齐和 FID 的影响是什么?

主要发现

  • StyleGAN-T 在 64x64 的零-shot MS COCO FID 方面显著更好,并将 256x256 的先前基于 GAN 的方法的 FID 降至一半,同时实现高速推理。
  • 重设计的生成器和判别器在轻量级设置下使 FID 与 CLIP 分数相较 StyleGAN-XL 基线提升约 10%。
  • 五头判别器采用 DINO/Large ViT-S 特征骨干,并配合可微分增强,相较于先前的判别器设计在 FID 与 CLIP 性能上再提升约 40%。
  • CLIP 指导在 FID/CLIP 指标上提升文本对齐约 20%,截断进一步提升文本对齐,尽管过度指导可能损害保真度。
  • 采用两阶段文本编码器策略的训练允许非常高的 CLIP 指导权重而不产生伪影,显著提升文本对齐而不损害 FID。
  • 在大规模场景下,StyleGAN-T 约具备 10 亿参数,基于 2.5 亿对图文对在四周预算、64 台 A100 GPU 进行训练;在合适的硬件上实现 0.1s 每张图片的推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。