Skip to main content
QUICK REVIEW

[论文解读] VL-BEiT: Generative Vision-Language Pretraining

Hangbo Bao, Wenhui Wang|arXiv (Cornell University)|Jun 2, 2022
Multimodal Machine Learning Applications被引用 22
一句话总结

VL-BEiT 使用统一的 mask-then-predict 目标,在单模态与多模态数据上预训练一个双向的多模态 Transformer,在视觉-语言任务上取得强劲表现,并获得可迁移到视觉任务的视觉特征。

ABSTRACT

We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.

研究动机与目标

  • 提出一个简单、统一的生成式预训练方案,用于视觉-语言模型,能够同时利用单模态和多模态数据。
  • 从头开始预训练,使用一个共享的主干和一阶段训练,采用 mask-then-predict 目标。
  • 学习可迁移的多模态表示,适用于视觉-语言任务和通用视觉任务。

提出的方法

  • 使用一个共享的多模态 Transformer 主干,结合模态专家混合(MoME)来处理不同模态。
  • 执行三个掩码预测任务:对图像进行掩码图像建模,对文本进行掩码语言建模,对图像-文本对进行掩码视觉-语言建模。
  • 将图像表示为带有 [I_CLS] 的补丁序列;将文本表示为带有 [T_CLS] 和 [T_SEP] 的标记嵌入;将图像-文本表示拼接以构成多模态输入。
  • 在单模态数据上进行预训练(图像使用 ImageNet-22K,文本使用英文维基百科和 BookCorpus),以及在多模态数据上进行预训练(Conceptual Captions、SBU、COCO、Visual Genome)。
  • 在下游视觉-语言任务中,按图像编码器、双编码器或融合编码器进行微调。
  • 消融预训练任务和 MoME 架构以评估贡献。

实验结果

研究问题

  • RQ1在单模态和多模态数据上使用单一的统一掩码预训练目标,是否可以产生强劲的视觉-语言表征?
  • RQ2共享的 MoME Transformer 与标准 Transformer 在多模态学习中的表现有何差异?
  • RQ3MVLM(掩码视觉-语言建模)相对于纯单模态 MLM/MIM 对下游任务的影响是什么?
  • RQ4预训练任务在多大程度上能够转移到纯视觉任务,如图像分类和语义分割?

主要发现

  • VL-BEiT 在视觉-语言基准测试上取得了具有竞争力的表现,如视觉问答、视觉推理和图像文本检索。
  • 该模型学习到可迁移的视觉特征,在图像分类和语义分割上取得了优异的结果。
  • 消融研究显示 MVLM 至关重要,而对单模态数据的 MLM 和 MIM 也有积极贡献。
  • 在消融实验中,MoME Transformer 的表现优于标准 Transformer,表明模态特定的专家有助于提升多模态理解。
  • VL-BEiT 表明,一阶段、从头开始的单一统一目标预训练即可产生通用的视觉-语言与视觉表征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。