[论文解读] Multimodal Few-Shot Learning with Frozen Language Models
Frozen 将一个预训练且被冻结的语言模型转移到多模态任务,通过训练视觉编码器输出一个语言模型关注的视觉前缀,从而在不更新语言模型的情况下实现零样本和少样本的多模态学习。
When trained at sufficient scale, auto-regressive language models exhibit the notable ability to learn a new language task after being prompted with just a few examples. Here, we present a simple, yet effective, approach for transferring this few-shot learning ability to a multimodal setting (vision and language). Using aligned image and caption data, we train a vision encoder to represent each image as a sequence of continuous embeddings, such that a pre-trained, frozen language model prompted with this prefix generates the appropriate caption. The resulting system is a multimodal few-shot learner, with the surprising ability to learn a variety of new tasks when conditioned on examples, represented as a sequence of multiple interleaved image and text embeddings. We demonstrate that it can rapidly learn words for new objects and novel visual categories, do visual question-answering with only a handful of examples, and make use of outside knowledge, by measuring a single model on a variety of established and new benchmarks.
研究动机与目标
- 动机:在不微调语言模型的情况下,推动将少样本语言模型能力扩展到多模态(视觉-语言)任务。
- 实现对新多模态任务的快速适应,借助包含图像与文本输入的上下文提示。
- 展示冻结的语言模型如何利用百科知识来完成视觉任务,并迅速将词汇绑定到视觉概念。
- 在多样化基准上展示少样本学习能力,包括 VQA、OKVQA 和 miniImageNet 的开放式生成任务。
提出的方法
- 使用一个预训练的 7B 自回归语言模型(Transformer),权重保持冻结。
- 训练一个视觉编码器(NF-ResNet-50),输出一系列嵌入,形成与语言模型兼容的视觉前缀。
- 将视觉编码器的输出线性映射到 D 维嵌入,并重塑为 n 个标记,以形成视觉前缀。
- 通过冻结的语言模型反向传播梯度,仅训练视觉编码器参数。
- 在提示中允许图像嵌入与文本嵌入的交错,利用相对位置编码处理多张图像。
- 在开放式、生成式设定下,在零样本和少样本情景中进行评估,测量基于标记的生成质量与真值之间的差异。
实验结果
研究问题
- RQ1当以可训练的视觉编码器生成的视觉前缀作为条件时,冻结的大型语言模型是否能够产生合适的多模态输出?
- RQ2通过交错的图像与文本序列进行提示,是否能在多模态任务(VQA、 captioning、和 category binding)上实现零样本和少样本学习?
- RQ3在没有特定任务微调的情况下,模型在视觉任务(如 OKVQA)中在多大程度上利用其百科知识?
- RQ4在少样本条件下,模型在快速概念绑定任务(miniImageNet 开放式与 real-name 变体)上的表现如何?
主要发现
- 从图像描述到 VQA 的零样本传递超过盲基线和基线微调,在 VQAv2 的 0/1/4 次样本下,Frozen 分别达到 29.5/35.7/38.2(表 1)。
- 少样本提示能提高 VQA 的表现,接近但未达到 SGD 训练的水平(例如,四个示例时为 38.2%,而完全 VQA 训练为 48.4%,表 1)。
- OKVQA 的表现随语言模型规模而扩大,表明百科知识对多模态推理有所贡献,而无需直接在 OKVQA 上进行任务特定微调。
- 开放式 miniImageNet 的结果在更高的 inner-shot 和更丰富的示例下显示显著提升,证明了将新词快速绑定到视觉类别的能力(表 3)。
- Fast-VQA 和 Real-Fast-VQA 指示模型能够将最近学到的词汇融入到多模态问题中,随着 inner-shot 增加性能提升(表 5)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。