QUICK REVIEW

[论文解读] Zero-Shot Text-to-Image Generation

Aditya Ramesh, Mikhail Pavlov|arXiv (Cornell University)|Feb 24, 2021

Multimodal Machine Learning Applications参考文献 55被引用 1,132

一句话总结

一个12B参数的自回归 transformer，在2.5亿对图文对上训练，学会在零样本条件下从文本生成高保真图像，而无需在配对字幕上训练。它还展示了初步的图像到图像翻译和组合能力。

ABSTRACT

Text-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. These assumptions might involve complex architectures, auxiliary losses, or side information such as object part labels or segmentation masks supplied during training. We describe a simple approach for this task based on a transformer that autoregressively models the text and image tokens as a single stream of data. With sufficient data and scale, our approach is competitive with previous domain-specific models when evaluated in a zero-shot fashion.

研究动机与目标

展示使用大规模自回归 transformer 的零样本文本到图像生成。
调查将离散潜在图像令牌与文本令牌结合的两阶段训练流程。
在 MS-COCO 和 CUB 上评估零样本性能，并分析规模化带来的新兴能力。

提出的方法

训练一个离散 VAE（dVAE），将 256x256 的图像压缩为 32x32 的图像令牌（8192 个码本值）。
训练一个 12B 参数的稀疏 transformer，将文本和图像令牌的联合分布建模为一个单一流。
使用两阶段的 ELBO 目标：阶段 1 优化 VAE 的 phi/theta；阶段 2 优化文本+图像令牌先验的 psi。
将 256 个 BPE 文本令牌与 32x32 图像令牌级联，并用解码器单向 transformer 自回归建模它们。
用预训练的对比模型对生成样本进行重新排序，以选取用于评估的最佳图像。

实验结果

研究问题

RQ1数据、模型规模与训练过程的扩展是否能够实现高质量的零样本文本到图像生成？
RQ2大规模模型在没有字幕监督的条件下训练时，出现哪些新兴能力（如图像到图像翻译、文本渲染）？
RQ3零样本性能如何与先前的领域特定模型在 MS-COCO 和 CUB 上相比？
RQ4数据与训练集的重叠对 FID、IS 等评估指标有何影响？
RQ5为高效训练和部署如此大规模的模型，哪些技术是必要的（混合精度、分布式优化、梯度压缩）？

主要发现

这个 12B 参数的模型在 2.5 亿对图文对上训练，在 MS-COCO 上实现了具有竞争力的零样本图像生成，而不使用训练字幕。
人类评估显示，在真实感（90%）和字幕匹配度（93%）方面，模型样本优于此前方法。
尽管没有字幕监督，该模型在 MS-COCO 的 FID 仅比最佳前代方法低约 2 点。
该方法在零样本设置下展示了初步的图像到图像翻译和文本渲染能力。
使用对比模型进行重新排序随着候选数量的增加可提升样本质量（在较高 N 时收益递减）。
在 CUB 数据集上存在明显的性能差距，表明在没有微调的情况下，对特定分布的限制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。