QUICK REVIEW

[论文解读] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Axel Sauer, Tero Karras|arXiv (Cornell University)|Jan 23, 2023

Generative Adversarial Networks and Image Synthesis被引用 61

一句话总结

StyleGAN-T 使 StyleGAN-XL 适用于大规模文本到图像生成，在单次推理中实现快速（大约每张图像0.1秒），具备强文本对齐并在低分辨率下保持与高质量竞争力，同时在该领域率先展示基于 GAN 的性能超过扩散模型。

ABSTRACT

Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.

研究动机与目标

在非常大规模的数据集上，激发对快速、可扩展的文本到图像合成的需求。
通过重新设计生成器和判别器以实现文本条件合成，提升 GAN 的竞争力。
在固定算力预算下提升文本对齐，同时保持多样化的图像输出。
实现相对于文本条件的可控变体和实际潜在空间的操作。

提出的方法

以 StyleGAN-XL 为灵感的基础架构，具备非等变的 StyleGAN2 风格生成器主干。
通过带有 GroupNorm 与 Layer Scale 的残差块来提升生成器容量以稳定训练。
通过绕过映射网络并使用二阶风格交互 s = s1 ⊗ s2 + s3 来增强文本条件。
使用 ViT-S 主干、五个并行头部以及可微分增强来重新设计判别器。
在训练中整合基于 CLIP 的引导以将图像与文本提示对齐（L_CLIP），并进行仔细加权。
在推理阶段通过逐步朝向每个提示的均值 w̄，在 w = [f(z), c_text] 中实现截断，并采用两阶段文本编码器策略以进一步提高文本对齐。

实验结果

研究问题

RQ1在实际预算下，能否使 GAN 与扩散模型在大规模文本到图像合成方面具有竞争力？
RQ2哪些生成器/判别器设计选项能够在基于 GAN 的文本到图像中实现强文本对齐和可控变体？
RQ3CLIP 指导损失和截断如何影响 GAN 的图像保真度和文本对齐？
RQ4训练阶段策略（文本编码器训练与否、生成器训练）对 CLIP 对齐和 FID 的影响是什么？

主要发现

StyleGAN-T 在 64x64 的零-shot MS COCO FID 方面显著更好，并将 256x256 的先前基于 GAN 的方法的 FID 降至一半，同时实现高速推理。
重设计的生成器和判别器在轻量级设置下使 FID 与 CLIP 分数相较 StyleGAN-XL 基线提升约 10%。
五头判别器采用 DINO/Large ViT-S 特征骨干，并配合可微分增强，相较于先前的判别器设计在 FID 与 CLIP 性能上再提升约 40%。
CLIP 指导在 FID/CLIP 指标上提升文本对齐约 20%，截断进一步提升文本对齐，尽管过度指导可能损害保真度。
采用两阶段文本编码器策略的训练允许非常高的 CLIP 指导权重而不产生伪影，显著提升文本对齐而不损害 FID。
在大规模场景下，StyleGAN-T 约具备 10 亿参数，基于 2.5 亿对图文对在四周预算、64 台 A100 GPU 进行训练；在合适的硬件上实现 0.1s 每张图片的推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。