[论文解读] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning
CM3Leon 是一个基于检索增强的、以标记为单位的解码器-单模态的多模态模型,能够生成和填充文本与图像,在训练计算量显著降低的情况下实现了文本到图像的最先进结果,并在指令微调后获得增强。
We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.
研究动机与目标
- 证明自回归、基于标记的多模态模型在降低计算量的前提下能够匹配或超越扩散式方法的图像生成效果。
- 展示使用授权数据(Shutterstock)的检索增强预训练流水线在多模态任务中的优势。
- 评估多任务监督微调(指令微调)对文本、图像和混合任务性能的影响。
- 探索自包含的对比学习解码以提高生成质量。
- 确立 CM3Leon 作为一个在文本到图像和图像到文本生成方面具有可控性的多用途模型,且可在 SFT 之后使用。
提出的方法
- 将 CM3 多模态架构改造成解码器单元、带检索增强的模型(CM3Leon)。
- 使用带许可的 Shutterstock 图像和文本的大规模检索增强数据进行预训练,利用密集型 CLIP 基检索器和 MIPS 进行检索。
- 引入一个新的 <break> 标记来实现模态间切换,并使用 CM3 风格的目标函数进行多模态填充与生成。
- 在混合图像-文本任务上应用第二阶段的多任务监督微调(SFT)以实现指令微调。
- 引入一种自包含的对比解码方法以提升文本和图像生成质量,包括对比解码(CD-K)的一种变体和无分类器引导(CFG)。
- 评估解码策略(温度、Top-P、CFG、CD-K)并进行检索消融研究以量化对零样本 MS-COCO FID 等任务的影响。
实验结果
研究问题
- RQ1自回归、基于标记的多模态模型在引入检索增强和高效训练的前提下,是否能够实现具有竞争力甚至更优的文本到图像质量?
- RQ2在预训练阶段的检索增强是否提升了在图像和文本任务上的零样本和小样本生成性能?
- RQ3大规模指令微调(SFT)对混合图像-文本任务的可控性和性能有何影响?
- RQ4先进的解码策略(CFG、Top-P、CD-K)如何影响多模态输出的生成质量与多样性?
- RQ5在标准基准如零样本 MS-COCO FID 上,CM3Leon 不同模型规模的相对表现如何?
主要发现
- CM3Leon-7B 在仅 7B 参数且显著低于可比方法的训练计算量下,获得了新的零样本 MS-COCO FID 4.88 的状态最优成绩。
- 检索增强是高效训练的关键,相较于非检索基线,能够提升生成质量。
- SFT(指令微调)使任务的可控性达到前所未有的水平,包括语言引导的图像编辑、条件图像生成和分割等。
- 自包含的对比解码方法(CD-K)提供了与 CFG 相当或互补的增益,在与其他解码器结合时可实现更好生成。
- CM3Leon 模型(350M、760M、7B)呈现出稳定的损失下降和有利的扩展性,CM3Leon-7B 在文本到图像和图像到文本任务上均展现出强性能。
- 该模型在零样本 MS-COCO FID 等任务上优于如 KNN-Diffusion、RE-IMAGEN 等检索增强基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。