QUICK REVIEW

[论文解读] VL-BEiT: Generative Vision-Language Pretraining

Hangbo Bao, Wenhui Wang|arXiv (Cornell University)|Jun 2, 2022

Multimodal Machine Learning Applications被引用 22

一句话总结

VL-BEiT 使用统一的 mask-then-predict 目标，在单模态与多模态数据上预训练一个双向的多模态 Transformer，在视觉-语言任务上取得强劲表现，并获得可迁移到视觉任务的视觉特征。

ABSTRACT

We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.

研究动机与目标

提出一个简单、统一的生成式预训练方案，用于视觉-语言模型，能够同时利用单模态和多模态数据。
从头开始预训练，使用一个共享的主干和一阶段训练，采用 mask-then-predict 目标。
学习可迁移的多模态表示，适用于视觉-语言任务和通用视觉任务。

提出的方法

使用一个共享的多模态 Transformer 主干，结合模态专家混合（MoME）来处理不同模态。
执行三个掩码预测任务：对图像进行掩码图像建模，对文本进行掩码语言建模，对图像-文本对进行掩码视觉-语言建模。
将图像表示为带有 [I_CLS] 的补丁序列；将文本表示为带有 [T_CLS] 和 [T_SEP] 的标记嵌入；将图像-文本表示拼接以构成多模态输入。
在单模态数据上进行预训练（图像使用 ImageNet-22K，文本使用英文维基百科和 BookCorpus），以及在多模态数据上进行预训练（Conceptual Captions、SBU、COCO、Visual Genome）。
在下游视觉-语言任务中，按图像编码器、双编码器或融合编码器进行微调。
消融预训练任务和 MoME 架构以评估贡献。

实验结果

研究问题

RQ1在单模态和多模态数据上使用单一的统一掩码预训练目标，是否可以产生强劲的视觉-语言表征？
RQ2共享的 MoME Transformer 与标准 Transformer 在多模态学习中的表现有何差异？
RQ3MVLM（掩码视觉-语言建模）相对于纯单模态 MLM/MIM 对下游任务的影响是什么？
RQ4预训练任务在多大程度上能够转移到纯视觉任务，如图像分类和语义分割？

主要发现

VL-BEiT 在视觉-语言基准测试上取得了具有竞争力的表现，如视觉问答、视觉推理和图像文本检索。
该模型学习到可迁移的视觉特征，在图像分类和语义分割上取得了优异的结果。
消融研究显示 MVLM 至关重要，而对单模态数据的 MLM 和 MIM 也有积极贡献。
在消融实验中，MoME Transformer 的表现优于标准 Transformer，表明模态特定的专家有助于提升多模态理解。
VL-BEiT 表明，一阶段、从头开始的单一统一目标预训练即可产生通用的视觉-语言与视觉表征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。