QUICK REVIEW

[论文解读] VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

Hangbo Bao, Wenhui Wang|arXiv (Cornell University)|Nov 3, 2021

Multimodal Machine Learning Applications参考文献 44被引用 288

一句话总结

VLMo 引入一个统一的视觉-语言预训练模型，采用 Mixture-of-Modality-Experts (MoME) Transformer，既可作为高效检索的双编码器，也可作为用于分类的融合编码器，并通过对图像数据和文本数据的阶段式预训练得到增强。

ABSTRACT

We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA, NLVR2 and image-text retrieval. The code and pretrained models are available at https://aka.ms/vlmo.

研究动机与目标

倡导一个统一的 VL 预训练，支持检索（双编码器）和分类（融合编码器）任务。
引入 MoME Transformer，在一个共享骨干网络中对图像、文本和图像-文本对进行编码。
提出阶段式预训练，利用大规模的图像-only 和文本-only 数据来提升VL表示。
在标准 VL 基准上对 VLMo 进行预训练和微调以展示最先进的结果。

提出的方法

引入具有模态专用专家（视觉、语言、视觉-语言）与共享自注意力层的 Mixture-of-Modality-Experts (MoME) Transformer。
通过专家实现模态专用处理，同时共享注意力以对齐视觉和语言内容。
采用三项任务进行预训练：image-text 对比学习（ITC）、image-text 匹配（ITM）和掩码语言建模（MLM）。
阶段式预训练：先进行针对 V-FFN 和自注意力的图像-only 预训练，然后进行文本-only 预训练以学习 L-FFN，随后进行 VL 预训练。
微调为检索的双编码器（图像和文本分别编码）或作为VL分类任务的融合编码器。
扩大数据规模（高达 1B 图像-文本对）和批量大小以提升性能。

实验结果

研究问题

RQ1单个 MoME Transformer 主干是否能有效同时支持视觉-语言任务中的双编码器检索和融合编码器分类？
RQ2相较于仅图像-文本预训练，基于图像-only 和文本-only 数据的阶段式预训练是否能改善视觉-语言表示？
RQ3在 MoME 顶部层中引入视觉-语言专家以实现跨模态交互，会带来哪些提升？

主要发现

在作为双编码器使用时，VLMo 在 VL 分类基准（VQA、NLVR2）上达到最先进水平，在图像-文本检索（COCO、Flickr30K）上具有竞争力/领先地位。
作为融合编码器，VLMo 提供强劲的 VL 推理性能，优于若干先前的基于融合的模型。
使用图像-only 和文本-only 数据的阶段式预训练显著提升下游性能。
VLMo-Large++ 在约 1B 图像-文本对上、并采用更大的批量大小，在若干基准上创下新记录。
作为双编码器使用时，VLMo 由于线性时间编码，相较于二次方的融合方法，提供更快的检索速度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。