Skip to main content
QUICK REVIEW

[论文解读] Retrieval-Augmented Multimodal Language Modeling

Michihiro Yasunaga, Armen Aghajanyan|arXiv (Cornell University)|Nov 22, 2022
Multimodal Machine Learning Applications被引用 29
一句话总结

RA-CM3 是一个检索增强的多模态模型,它从外部记忆中检索相关文本/图像来调整生成,能够在保持更高保真度的同时实现图像和文本生成,并具备新颖的上下文内学习能力,同时比之前的模型使用更少的训练计算。

ABSTRACT

Recent multimodal models such as DALL-E and CM3 have achieved remarkable progress in text-to-image and image-to-text generation. However, these models store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the model parameters, requiring increasingly larger models and training data to capture more knowledge. To integrate knowledge in a more scalable and modular way, we propose a retrieval-augmented multimodal model, which enables a base multimodal model (generator) to refer to relevant text and images fetched by a retriever from external memory (e.g., documents on the web). Specifically, for the retriever, we use a pretrained CLIP, and for the generator, we train a CM3 Transformer on the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3), is the first multimodal model that can retrieve and generate both text and images. We show that RA-CM3 significantly outperforms baseline multimodal models such as DALL-E and CM3 on both image and caption generation tasks (12 FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel capabilities, such as faithful image generation and multimodal in-context learning (e.g., image generation from demonstrations).

研究动机与目标

  • 通过使用外部记忆而非参数锚定的知识来推动可扩展的多模态生成知识增强。
  • 开发一个能够对混合文本/图像文档进行编码和检索的多模态检索器。
  • 构建一个基于 CM3 的检索增强生成器,能够利用检索到的多模态文档进行生成。
  • 证明检索增强在 MS-COCO 上同时提升图像与字幕生成,并揭示诸如多模态上下文内学习等新能力。

提出的方法

  • 使用带混合模态编码器的密集多模态检索器(扩展自 CLIP)从外部记忆中获取相关的多模态文档。
  • 通过 E_Q 和 E_M 在共享的密集空间中表示查询和记忆项,从而实现最大内积搜索(MIPS)。
  • 将检索到的多模态文档前置到输入序列,并使用一个联合损失对基于 CM3 的生成器进行训练,该损失同时包含主序列和检索文档(L = L_main + α L_retr)。
  • 在来自 LAION 的 150M 文本-图像对上训练 RA-CM3,这些对被格式化为类似 HTML 的多模态文档,每张图像有 1024 个图像令牌。
  • 在 MS-COCO 上评估图注到图像生成(FID)和图像到图注生成(CIDEr),与基线进行比较并衡量训练计算效率。
  • 解释设计选择并进行消融实验,以了解检索多样性、避免冗余以及查询丢弃对结果的影响。

实验结果

研究问题

  • RQ1检索增强的多模态模型是否能够检索并利用外部多模态文档来同时改善图像和文本生成?
  • RQ2构建多模态检索器并将检索内容整合到多模态生成器中的最佳实践是什么?
  • RQ3检索增强是否能够在文本与图像模态之间实现上下文内学习和知识密集的多模态生成?

主要发现

  • RA-CM3 在 MS-COCO 上显著提升图像与字幕生成(例如比基线提升 12 的 FID 和 17 的 CIDEr)。
  • RA-CM3 在较少的训练计算下取得强劲表现(在可比设置中计算量不足 DALL-E 的 30%)。
  • RA-CM3 是第一个能够检索和生成文本与图像的模型,并展示出新颖的多模态上下文内学习能力。
  • 该模型在知识密集型提示下展现出对图像生成的忠实性,并能通过上下文内学习进行少-shot 图像分类。
  • 检索增强通过使模型专注于使用检索内容而不是将所有知识编码在参数中来提升训练效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。