Skip to main content
QUICK REVIEW

[论文解读] VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

Hangbo Bao, Wenhui Wang|arXiv (Cornell University)|Nov 3, 2021
Multimodal Machine Learning Applications参考文献 44被引用 288
一句话总结

VLMo 引入一个统一的视觉-语言预训练模型,采用 Mixture-of-Modality-Experts (MoME) Transformer,既可作为高效检索的双编码器,也可作为用于分类的融合编码器,并通过对图像数据和文本数据的阶段式预训练得到增强。

ABSTRACT

We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA, NLVR2 and image-text retrieval. The code and pretrained models are available at https://aka.ms/vlmo.

研究动机与目标

  • 倡导一个统一的 VL 预训练,支持检索(双编码器)和分类(融合编码器)任务。
  • 引入 MoME Transformer,在一个共享骨干网络中对图像、文本和图像-文本对进行编码。
  • 提出阶段式预训练,利用大规模的图像-only 和文本-only 数据来提升VL表示。
  • 在标准 VL 基准上对 VLMo 进行预训练和微调以展示最先进的结果。

提出的方法

  • 引入具有模态专用专家(视觉、语言、视觉-语言)与共享自注意力层的 Mixture-of-Modality-Experts (MoME) Transformer。
  • 通过专家实现模态专用处理,同时共享注意力以对齐视觉和语言内容。
  • 采用三项任务进行预训练:image-text 对比学习(ITC)、image-text 匹配(ITM)和掩码语言建模(MLM)。
  • 阶段式预训练:先进行针对 V-FFN 和自注意力的图像-only 预训练,然后进行文本-only 预训练以学习 L-FFN,随后进行 VL 预训练。
  • 微调为检索的双编码器(图像和文本分别编码)或作为VL分类任务的融合编码器。
  • 扩大数据规模(高达 1B 图像-文本对)和批量大小以提升性能。

实验结果

研究问题

  • RQ1单个 MoME Transformer 主干是否能有效同时支持视觉-语言任务中的双编码器检索和融合编码器分类?
  • RQ2相较于仅图像-文本预训练,基于图像-only 和文本-only 数据的阶段式预训练是否能改善视觉-语言表示?
  • RQ3在 MoME 顶部层中引入视觉-语言专家以实现跨模态交互,会带来哪些提升?

主要发现

  • 在作为双编码器使用时,VLMo 在 VL 分类基准(VQA、NLVR2)上达到最先进水平,在图像-文本检索(COCO、Flickr30K)上具有竞争力/领先地位。
  • 作为融合编码器,VLMo 提供强劲的 VL 推理性能,优于若干先前的基于融合的模型。
  • 使用图像-only 和文本-only 数据的阶段式预训练显著提升下游性能。
  • VLMo-Large++ 在约 1B 图像-文本对上、并采用更大的批量大小,在若干基准上创下新记录。
  • 作为双编码器使用时,VLMo 由于线性时间编码,相较于二次方的融合方法,提供更快的检索速度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。