QUICK REVIEW

[論文レビュー] VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

Hangbo Bao, Wenhui Wang|arXiv (Cornell University)|Nov 3, 2021

Multimodal Machine Learning Applications参考文献 44被引用数 288

ひとこと要約

VLMo は、デュアルエンコーダによる効率的な検索と分類のための統一視覚言語プリトレーニングモデルを導入し、画像のみデータとテキストのみデータによる段階的事前学習で強化された Mixture-of-Modality-Experts (MoME) Transformer を備えています。

ABSTRACT

We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA, NLVR2 and image-text retrieval. The code and pretrained models are available at https://aka.ms/vlmo.

研究の動機と目的

検索（デュアルエンコーダ）と分類（フュージョンエンコーダ）の両方のタスクをサポートする統一VLプリトレーニングを動機づける。
共通バックボーン内で画像、テキスト、画像-テキストペアをエンコードする MoME Transformer を導入する。
VL 表現を改善するために、画像のみデータとテキストのみデータを活用した段階的プリトレーニングを提案する。
標準VLベンチマークで VLMo を事前学習・微調整して最先端の結果を示す。

提案手法

モダリティ固有のエキスパート（ビジョン、言語、ビジョン-言語）と共有自己注意層を備える Mixture-of-Modality-Experts (MoME) Transformer を導入する。
エキスパートを介してモダリティ特有の処理を強制しつつ、視覚と言語内容を整合させるために注意機構を共有する。
image-text contrastive learning (ITC)、image-text matching (ITM)、and masked language modeling (MLM)の3タスクで前訓練を行う。
Stagewise pre-training: 最初に V-FFN と自己注意のための画像のみ前訓練、次に L-FFN のテキストのみ前訓練、続いて VL 前訓練。
検索のためのデュアルエンコーダとして微調整（画像とテキストは別々にエンコード）、またはVL分類タスクのためのフュージョンエンコーダとして微調整。
性能向上のためデータを拡大（最大 1B image-text ペア）およびバッチサイズを大きくする。

実験結果

リサーチクエスチョン

RQ1単一の MoME Transformer ボトムアップが視覚言語タスクにおいてデュアルエンコーダ検索とフュージョンエンコーダ分類の両方を効果的にサポートできるか？
RQ2画像のみおよびテキストのみのデータでの段階的プリトレーニングは、画像-テキストのみのプリトレーニングと比較して視覚言語表現を改善するか？
RQ3トップ MoME 層にビジョン-言語エキスパートを組み込むことでクロスモーダル相互作用にどんな利得が得られるか？

主な発見

Model	# Pretrain Images	VQA test-dev	VQA test-std	NLVR2 dev	NLVR2 test-P
UNITER-Base	4M	72.70	72.91	77.18	77.85
VILLA-Base	4M	73.59	73.67	78.39	79.30
UNIMO-Base	4M	73.79	74.02	-	-
ViLT-Base	4M	71.26	-	75.70	76.13
ALBEF-Base	4M	74.54	74.70	80.24	80.50
VLMo-Base	4M	76.64	76.89	82.77	83.34
UNITER-Large	4M	73.82	74.02	79.12	79.98
VLMo-Large	4M	79.94	79.98	85.64	86.86
VinVL-Large	5.7M	76.52	76.60	82.67	83.98
SimVLM-Large	1.8B	79.32	79.56	84.13	84.84
SimVLM-Huge	1.8B	80.03	80.34	84.53	85.15
Florence-Huge	900M	80.16	80.36	-	-
VLMo-Large++	1.0B	82.88	82.78	88.62	89.54

VLMo は VL 分類ベンチマーク（VQA、NLVR2）で最先端の結果を達成し、デュアルエンコーダとして使用した場合は画像-テキスト検索（COCO、Flickr30K）で競争力の高い/リードする結果を示す。
フュージョンエンコーダとして、VLMo は強力な VL 推論性能を提供し、いくつかの従来のフュージョンベースモデルを上回る。
画像のみおよびテキストのみデータを用いた段階的前訓練は下流の性能を大幅に向上させる。
VLMo-Large++ は約1Bペアで訓練され、より大きなバッチサイズでいくつかのベンチマークで新記録を樹立。
デュアルエンコーダとして使用した場合、線形時間エンコードのため従来の二次的フュージョンベースアプローチより検索が高速。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。