[论文解读] CogView: Mastering Text-to-Image Generation via Transformers
CogView 训练一个 4B 参数的 Transformer,使用 VQ-VAE 图像分词器进行高质量文本到图像生成,取得强劲的 FID 得分并实现下游微调任务。
Text-to-Image generation in the general domain has long been an open problem, which requires both a powerful generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView achieves the state-of-the-art FID on the blurred MS COCO dataset, outperforming previous GAN-based models and a recent similar work DALL-E.
研究动机与目标
- 旨在构建一个可扩展的跨模态模型,能够在通用领域从文本生成图像。
- 开发一个离散图像分词器(VQ-VAE)和一个大型 Transformer,以联合建模文本和图像标记。
- 提出用于训练极大规模 Transformer 的稳定化技术(Precision Bottleneck Relaxation 与 Sandwich LayerNorm)。
- 展示下游任务的微调策略,如风格学习、超分辨率、图像描述/文字生成以及自排序(self-reranking)。
提出的方法
- 采用两阶段框架,其中图像分词器(VQ-VAE)将图像压缩为离散标记,类似 GPT 的 Transformer 对联合标记序列进行建模。
- 使用 4B 参数的 Transformer,具有 48 层、隐藏维度 2560、40 个注意力头,处理序列长度最高至 1088 tokens。
- 在 30M 中文文本–图像对上进行训练,文本和图像标记均进行从左到右的预测。
- 通过 Precision Bottleneck Relaxation (PB-relax) 和 Sandwich LayerNorm (Sandwich-LN) 来稳定训练,防止 NaN/溢出并管理数值尺度。
- 采用三区域稀疏自注意力以加速训练并支持更大规模的模型。
- 微调 CogView 以适应下游任务,如超分辨率、图像描述/自排序(通过 CapLoss)以及风格学习。
实验结果
研究问题
- RQ1在通用域中,具备 VQ-VAE 图像分词器的大规模 Transformer 能否达到最先进的文本到图像生成水平?
- RQ2在异构数据上稳定训练极大规模文本到图像 Transformer 需要哪些技术?
- RQ3在不需要额外大规模集群资源的前提下,如何微调预训练模型以适应下游任务(如超分辨率、图像描述和风格迁移)?
- RQ4基于内部指标的自排序与基于外部 CLIP 的重新排序相比如何?
- RQ5在自动指标(FID、IS、CapLoss)和人工评估方面,生成的图像与基线相比如何?
主要发现
| 模型 | FID-0 | FID-1 | FID-2 | FID-4 | FID-8 | IS | CapLoss |
|---|---|---|---|---|---|---|---|
| AttnGAN | 35.2 | 44.0 | 72.0 | 108.0 | 100.0 | 23.3 | 3.01 |
| DM-GAN | 26.5 | 39.0 | 73.0 | 119.0 | 112.3 | 32.2 | 2.87 |
| DF-GAN | 26.5 | 33.8 | 55.9 | 91.0 | 97.0 | 18.7 | 3.09 |
| DALL-E | 27.5 | 28.0 | 45.5 | 83.5 | 85.0 | 17.9 | — |
| CogView | 27.1 | 19.4 | 13.9 | 19.4 | 23.6 | 18.2 | 2.43 |
- CogView 在模糊的 MS COCO 上取得强劲的自动指标,超越了先前的基于 GAN 的方法,并在关键设置中与 DALL-E 相近竞争。
- 使用 Caption Loss 的自排序在不需要 CLIP 的情况下改进图像选择,在 MS COCO 的 FID 指标上优于其设置中的基于 CLIP 的重新排序。
- 微调使得超分辨率、图像描述/自排序以及风格学习成为可能,示例包括时尚设计和多种艺术风格。
- PB-relax 与 Sandwich-LN 在异构文本–图像语料上的 4B 规模(及对更大规模的外推)Transformer 的训练中有效地稳定了训练,减少 NaN 次数。
- 相比 DALL-E,CogView 在标准基准上的 FID 具有竞争力,并在稳定性和下游微调能力方面具有优势。
- 该模型支持领域特定的风格迁移和通过分块式超分辨微调实现的高分辨率指导。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。