QUICK REVIEW

[论文解读] Multimodal Few-Shot Learning with Frozen Language Models

Maria Tsimpoukelli, Jacob Menick|arXiv (Cornell University)|Jun 25, 2021

Multimodal Machine Learning Applications参考文献 35被引用 86

一句话总结

Frozen 将一个预训练且被冻结的语言模型转移到多模态任务，通过训练视觉编码器输出一个语言模型关注的视觉前缀，从而在不更新语言模型的情况下实现零样本和少样本的多模态学习。

ABSTRACT

When trained at sufficient scale, auto-regressive language models exhibit the notable ability to learn a new language task after being prompted with just a few examples. Here, we present a simple, yet effective, approach for transferring this few-shot learning ability to a multimodal setting (vision and language). Using aligned image and caption data, we train a vision encoder to represent each image as a sequence of continuous embeddings, such that a pre-trained, frozen language model prompted with this prefix generates the appropriate caption. The resulting system is a multimodal few-shot learner, with the surprising ability to learn a variety of new tasks when conditioned on examples, represented as a sequence of multiple interleaved image and text embeddings. We demonstrate that it can rapidly learn words for new objects and novel visual categories, do visual question-answering with only a handful of examples, and make use of outside knowledge, by measuring a single model on a variety of established and new benchmarks.

研究动机与目标

动机：在不微调语言模型的情况下，推动将少样本语言模型能力扩展到多模态（视觉-语言）任务。
实现对新多模态任务的快速适应，借助包含图像与文本输入的上下文提示。
展示冻结的语言模型如何利用百科知识来完成视觉任务，并迅速将词汇绑定到视觉概念。
在多样化基准上展示少样本学习能力，包括 VQA、OKVQA 和 miniImageNet 的开放式生成任务。

提出的方法

使用一个预训练的 7B 自回归语言模型（Transformer），权重保持冻结。
训练一个视觉编码器（NF-ResNet-50），输出一系列嵌入，形成与语言模型兼容的视觉前缀。
将视觉编码器的输出线性映射到 D 维嵌入，并重塑为 n 个标记，以形成视觉前缀。
通过冻结的语言模型反向传播梯度，仅训练视觉编码器参数。
在提示中允许图像嵌入与文本嵌入的交错，利用相对位置编码处理多张图像。
在开放式、生成式设定下，在零样本和少样本情景中进行评估，测量基于标记的生成质量与真值之间的差异。

实验结果

研究问题

RQ1当以可训练的视觉编码器生成的视觉前缀作为条件时，冻结的大型语言模型是否能够产生合适的多模态输出？
RQ2通过交错的图像与文本序列进行提示，是否能在多模态任务（VQA、 captioning、和 category binding）上实现零样本和少样本学习？
RQ3在没有特定任务微调的情况下，模型在视觉任务（如 OKVQA）中在多大程度上利用其百科知识？
RQ4在少样本条件下，模型在快速概念绑定任务（miniImageNet 开放式与 real-name 变体）上的表现如何？

主要发现

从图像描述到 VQA 的零样本传递超过盲基线和基线微调，在 VQAv2 的 0/1/4 次样本下，Frozen 分别达到 29.5/35.7/38.2（表 1）。
少样本提示能提高 VQA 的表现，接近但未达到 SGD 训练的水平（例如，四个示例时为 38.2%，而完全 VQA 训练为 48.4%，表 1）。
OKVQA 的表现随语言模型规模而扩大，表明百科知识对多模态推理有所贡献，而无需直接在 OKVQA 上进行任务特定微调。
开放式 miniImageNet 的结果在更高的 inner-shot 和更丰富的示例下显示显著提升，证明了将新词快速绑定到视觉类别的能力（表 3）。
Fast-VQA 和 Real-Fast-VQA 指示模型能够将最近学到的词汇融入到多模态问题中，随着 inner-shot 增加性能提升（表 5）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。