[论文解读] VL-BEiT: Generative Vision-Language Pretraining
VL-BEiT 使用统一的 mask-then-predict 目标,在单模态与多模态数据上预训练一个双向的多模态 Transformer,在视觉-语言任务上取得强劲表现,并获得可迁移到视觉任务的视觉特征。
We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.
研究动机与目标
- 提出一个简单、统一的生成式预训练方案,用于视觉-语言模型,能够同时利用单模态和多模态数据。
- 从头开始预训练,使用一个共享的主干和一阶段训练,采用 mask-then-predict 目标。
- 学习可迁移的多模态表示,适用于视觉-语言任务和通用视觉任务。
提出的方法
- 使用一个共享的多模态 Transformer 主干,结合模态专家混合(MoME)来处理不同模态。
- 执行三个掩码预测任务:对图像进行掩码图像建模,对文本进行掩码语言建模,对图像-文本对进行掩码视觉-语言建模。
- 将图像表示为带有 [I_CLS] 的补丁序列;将文本表示为带有 [T_CLS] 和 [T_SEP] 的标记嵌入;将图像-文本表示拼接以构成多模态输入。
- 在单模态数据上进行预训练(图像使用 ImageNet-22K,文本使用英文维基百科和 BookCorpus),以及在多模态数据上进行预训练(Conceptual Captions、SBU、COCO、Visual Genome)。
- 在下游视觉-语言任务中,按图像编码器、双编码器或融合编码器进行微调。
- 消融预训练任务和 MoME 架构以评估贡献。
实验结果
研究问题
- RQ1在单模态和多模态数据上使用单一的统一掩码预训练目标,是否可以产生强劲的视觉-语言表征?
- RQ2共享的 MoME Transformer 与标准 Transformer 在多模态学习中的表现有何差异?
- RQ3MVLM(掩码视觉-语言建模)相对于纯单模态 MLM/MIM 对下游任务的影响是什么?
- RQ4预训练任务在多大程度上能够转移到纯视觉任务,如图像分类和语义分割?
主要发现
- VL-BEiT 在视觉-语言基准测试上取得了具有竞争力的表现,如视觉问答、视觉推理和图像文本检索。
- 该模型学习到可迁移的视觉特征,在图像分类和语义分割上取得了优异的结果。
- 消融研究显示 MVLM 至关重要,而对单模态数据的 MLM 和 MIM 也有积极贡献。
- 在消融实验中,MoME Transformer 的表现优于标准 Transformer,表明模态特定的专家有助于提升多模态理解。
- VL-BEiT 表明,一阶段、从头开始的单一统一目标预训练即可产生通用的视觉-语言与视觉表征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。