[论文解读] VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
VLMo 引入一个统一的视觉-语言预训练模型,采用 Mixture-of-Modality-Experts (MoME) Transformer,既可作为高效检索的双编码器,也可作为用于分类的融合编码器,并通过对图像数据和文本数据的阶段式预训练得到增强。
We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA, NLVR2 and image-text retrieval. The code and pretrained models are available at https://aka.ms/vlmo.
研究动机与目标
- 倡导一个统一的 VL 预训练,支持检索(双编码器)和分类(融合编码器)任务。
- 引入 MoME Transformer,在一个共享骨干网络中对图像、文本和图像-文本对进行编码。
- 提出阶段式预训练,利用大规模的图像-only 和文本-only 数据来提升VL表示。
- 在标准 VL 基准上对 VLMo 进行预训练和微调以展示最先进的结果。
提出的方法
- 引入具有模态专用专家(视觉、语言、视觉-语言)与共享自注意力层的 Mixture-of-Modality-Experts (MoME) Transformer。
- 通过专家实现模态专用处理,同时共享注意力以对齐视觉和语言内容。
- 采用三项任务进行预训练:image-text 对比学习(ITC)、image-text 匹配(ITM)和掩码语言建模(MLM)。
- 阶段式预训练:先进行针对 V-FFN 和自注意力的图像-only 预训练,然后进行文本-only 预训练以学习 L-FFN,随后进行 VL 预训练。
- 微调为检索的双编码器(图像和文本分别编码)或作为VL分类任务的融合编码器。
- 扩大数据规模(高达 1B 图像-文本对)和批量大小以提升性能。
实验结果
研究问题
- RQ1单个 MoME Transformer 主干是否能有效同时支持视觉-语言任务中的双编码器检索和融合编码器分类?
- RQ2相较于仅图像-文本预训练,基于图像-only 和文本-only 数据的阶段式预训练是否能改善视觉-语言表示?
- RQ3在 MoME 顶部层中引入视觉-语言专家以实现跨模态交互,会带来哪些提升?
主要发现
- 在作为双编码器使用时,VLMo 在 VL 分类基准(VQA、NLVR2)上达到最先进水平,在图像-文本检索(COCO、Flickr30K)上具有竞争力/领先地位。
- 作为融合编码器,VLMo 提供强劲的 VL 推理性能,优于若干先前的基于融合的模型。
- 使用图像-only 和文本-only 数据的阶段式预训练显著提升下游性能。
- VLMo-Large++ 在约 1B 图像-文本对上、并采用更大的批量大小,在若干基准上创下新记录。
- 作为双编码器使用时,VLMo 由于线性时间编码,相较于二次方的融合方法,提供更快的检索速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。