QUICK REVIEW

[论文解读] OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Anas Awadalla, Irena Gao|arXiv (Cornell University)|Aug 2, 2023

Multimodal Machine Learning Applications被引用 70

一句话总结

OpenFlamingo 提供开源自回归视觉-语言模型（3B–9B），在网页数据上训练，在七个数据集上通过上下文演示实现大约是 Flamingo 性能的 80–89%。

ABSTRACT

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

研究动机与目标

推动创建一个开源的自回归视觉-语言框架，以便在没有专有权重或数据的情况下进行研究。
使用公开的编码器和解码器重现 Flamingo 风格的跨注意力视觉-语言架构。
在多样化的视觉-语言任务上评估开源模型，使用上下文演示以评估泛化和少样本能力。
分析数据源和训练选择，以了解相对于闭源系列模型的性能差距。

提出的方法

通过使用可训练的跨注意力模块，将冻结的语言模型与冻结的视觉编码器进行跨注意，来复现 Flamingo 架构。
通过冻结的视觉编码器（CLIP ViT-L/14）对图像进行嵌入，并训练一个 Perceiver 重采样器来生成图像嵌入。
在开源网页抓取的数据集 LAION-2B（图文对）和 Multimodal C4（MMC4）上训练，并对某些模型使用 ChatGPT 生成的序列。
用 <image> 和 <|endofchunk|> 标记对序列进行预处理，并使用 AdamW 优化进行下一个标记预测。
在 3B、4B、和 9B 参数规模上进行实验，包括标准和指令调优（instruction-tuned）的语言主干。
使用七个视觉-语言基准测试进行评估，具有不同数量的上下文示例（0、4、8、16、32），在某些设置中还使用基于检索的上下文示例选择（RICES）。

Figure 1 : OpenFlamingo performance as a fraction of corresponding Flamingo performance, averaged across evaluation settings (7 datasets $\times$ 5 options for number of in-context examples). Demonstrations are chosen using RICES (Retrieval-based In-Context Example Selection). More details regarding

实验结果

研究问题

RQ1开放源代码的自回归视觉-语言模型在多样化任务上能达到 Flamingo 的多大程度？
RQ2模型大小（3B、4B、9B）和语言模型主干（标准与指令调优）对零-shot 和上下文学习表现有何影响？
RQ3开放训练数据（LAION-2B 与 MMC4）以及数据处理选择如何影响上下文学习和 VQA 风格任务？
RQ4可训练与冻结的图像及片段末尾嵌入在下游性能中起到何种作用？
RQ5与微调的最先进方法相比，开源模型在使用上下文演示时是否能取得有竞争力的结果？

主要发现

Benchmark	Shots	Fl-3B	Fl-9B	OF-3B	OF-3B (I)	OF-4B	OF-4B (I)	OF-9B
COCO	0	73.0	79.4	74.9 (0.2)	74.4 (0.6)	76.7 (0.2)	81.2 (0.3)	79.5 (0.2)
COCO	4	85.0	93.1	77.3 (0.3)	82.7 (0.7)	81.8 (0.4)	85.8 (0.5)	89.0 (0.3)
COCO	32	99.0	106.3	93.0 (0.6)	94.8 (0.3)	95.1 (0.3)	99.2 (0.3)	99.5 (0.1)
Flickr-30K	0	60.6	61.5	52.3 (1.0)	51.2 (0.2)	53.6 (0.9)	55.6 (1.3)	59.5 (1.0)
Flickr-30K	4	72.0	72.6	57.2 (0.4)	59.1 (0.3)	60.7 (1.2)	61.2 (0.5)	65.8 (0.6)
Flickr-30K	32	71.2	72.8	61.1 (1.3)	64.5 (1.3)	56.9 (0.7)	53.0 (0.5)	61.3 (0.7)
VQAv2	0	49.2	51.8	44.6 (0.0)	44.1 (0.1)	45.1 (0.1)	46.9 (0.0)	52.7 (0.2)
VQAv2	4	53.2	56.3	45.8 (0.0)	45.7 (0.1)	49.0 (0.0)	49.0 (0.0)	54.8 (0.0)
VQAv2	32	57.1	60.4	47.0 (0.1)	44.8 (0.1)	43.0 (0.2)	47.3 (0.0)	53.3 (0.1)
OK-VQA	0	41.2	44.7	28.2 (0.2)	28.7 (0.1)	30.7 (0.1)	31.7 (0.1)	37.8 (0.2)
OK-VQA	4	43.3	49.3	30.3 (0.5)	30.6 (0.2)	35.1 (0.0)	34.6 (0.0)	40.1 (0.1)
OK-VQA	32	45.9	51.0	31.0 (0.1)	30.6 (0.1)	26.4 (0.2)	34.7 (0.3)	42.4 (0.0)
TextVQA	0	30.1	31.8	24.2 (0.2)	23.1 (0.2)	21.0 (0.3)	21.1 (0.4)	24.2 (0.5)
TextVQA	4	32.7	33.6	27.0 (0.3)	28.1 (0.4)	25.9 (0.0)	27.2 (0.3)	28.2 (0.4)
TextVQA	32	30.6	32.6	28.3 (0.2)	28.5 (0.1)	14.1 (0.2)	23.2 (0.2)	23.8 (0.2)
VizWiz	0	28.9	28.8	23.7 (0.5)	23.4 (0.3)	18.8 (0.1)	21.5 (0.2)	27.5 (0.2)
VizWiz	4	34.0	34.9	27.0 (0.3)	27.7 (0.1)	26.6 (0.5)	26.5 (0.4)	34.1 (0.7)
VizWiz	32	45.5	44.0	39.8 (0.1)	39.3 (0.4)	23.1 (1.1)	31.3 (0.2)	44.0 (0.5)
HatefulMemes	0	53.7	57.0	51.2 (2.5)	50.1 (2.2)	52.3 (2.3)	53.1 (2.2)	51.6 (1.8)
HatefulMemes	4	53.6	62.7	50.6 (0.8)	49.5 (0.6)	51.5 (1.4)	54.9 (1.1)	54.0 (2.0)
HatefulMemes	32	56.3	63.5	50.2 (1.8)	47.8 (2.2)	52.2 (1.2)	54.9 (1.1)	53.8 (2.1)

OpenFlamingo-3B 和 -9B 在七个数据集上的平均性能分别达到 Flamingo 的 85% 和 89%。
在 0-shot 和 4-shot 设置中，OpenFlamingo-9B 在若干数据集接近 Flamingo-9B，并在 COCO、VQAv2、VizWiz 上几乎匹配其 4-shot 性能。
OpenFlamingo-4B 模型常常不如 3B 模型，冻结与图像相关的嵌入会显著降低性能（例如 COCO 和 VQAv2）。
语言指令调优（language-instruction-tuning）提升了部分 OpenFlamingo 变体，RedPajama-3B 主干尤为显著。
OpenFlamingo-9B 获得了实质性但非最先进的提升；与微调的 SOTA 论文相比，在 32 次 RICES 演示下，其平均达到微调 SoTA 的约 62%。
不同数据集的性能趋势不同；VQAv2 对语言模型选择极为敏感，而基于 COCO 的 CIDEr 分数在更多上下文示例下持续改进。

Figure 2 : OpenFlamingo-9B (pictured) can process interleaved image-and-text sequences. This interface allows OpenFlamingo to learn many vision-language tasks through in-context demonstrations.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。