[論文レビュー] VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
VLMo は、デュアルエンコーダによる効率的な検索と分類のための統一視覚言語プリトレーニングモデルを導入し、画像のみデータとテキストのみデータによる段階的事前学習で強化された Mixture-of-Modality-Experts (MoME) Transformer を備えています。
We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA, NLVR2 and image-text retrieval. The code and pretrained models are available at https://aka.ms/vlmo.
研究の動機と目的
- 検索(デュアルエンコーダ)と分類(フュージョンエンコーダ)の両方のタスクをサポートする統一VLプリトレーニングを動機づける。
- 共通バックボーン内で画像、テキスト、画像-テキストペアをエンコードする MoME Transformer を導入する。
- VL 表現を改善するために、画像のみデータとテキストのみデータを活用した段階的プリトレーニングを提案する。
- 標準VLベンチマークで VLMo を事前学習・微調整して最先端の結果を示す。
提案手法
- モダリティ固有のエキスパート(ビジョン、言語、ビジョン-言語)と共有自己注意層を備える Mixture-of-Modality-Experts (MoME) Transformer を導入する。
- エキスパートを介してモダリティ特有の処理を強制しつつ、視覚と言語内容を整合させるために注意機構を共有する。
- image-text contrastive learning (ITC)、image-text matching (ITM)、and masked language modeling (MLM)の3タスクで前訓練を行う。
- Stagewise pre-training: 最初に V-FFN と自己注意のための画像のみ前訓練、次に L-FFN のテキストのみ前訓練、続いて VL 前訓練。
- 検索のためのデュアルエンコーダとして微調整(画像とテキストは別々にエンコード)、またはVL分類タスクのためのフュージョンエンコーダとして微調整。
- 性能向上のためデータを拡大(最大 1B image-text ペア)およびバッチサイズを大きくする。
実験結果
リサーチクエスチョン
- RQ1単一の MoME Transformer ボトムアップが視覚言語タスクにおいてデュアルエンコーダ検索とフュージョンエンコーダ分類の両方を効果的にサポートできるか?
- RQ2画像のみおよびテキストのみのデータでの段階的プリトレーニングは、画像-テキストのみのプリトレーニングと比較して視覚言語表現を改善するか?
- RQ3トップ MoME 層にビジョン-言語エキスパートを組み込むことでクロスモーダル相互作用にどんな利得が得られるか?
主な発見
| Model | # Pretrain Images | VQA test-dev | VQA test-std | NLVR2 dev | NLVR2 test-P |
|---|---|---|---|---|---|
| UNITER-Base | 4M | 72.70 | 72.91 | 77.18 | 77.85 |
| VILLA-Base | 4M | 73.59 | 73.67 | 78.39 | 79.30 |
| UNIMO-Base | 4M | 73.79 | 74.02 | - | - |
| ViLT-Base | 4M | 71.26 | - | 75.70 | 76.13 |
| ALBEF-Base | 4M | 74.54 | 74.70 | 80.24 | 80.50 |
| VLMo-Base | 4M | 76.64 | 76.89 | 82.77 | 83.34 |
| UNITER-Large | 4M | 73.82 | 74.02 | 79.12 | 79.98 |
| VLMo-Large | 4M | 79.94 | 79.98 | 85.64 | 86.86 |
| VinVL-Large | 5.7M | 76.52 | 76.60 | 82.67 | 83.98 |
| SimVLM-Large | 1.8B | 79.32 | 79.56 | 84.13 | 84.84 |
| SimVLM-Huge | 1.8B | 80.03 | 80.34 | 84.53 | 85.15 |
| Florence-Huge | 900M | 80.16 | 80.36 | - | - |
| VLMo-Large++ | 1.0B | 82.88 | 82.78 | 88.62 | 89.54 |
- VLMo は VL 分類ベンチマーク(VQA、NLVR2)で最先端の結果を達成し、デュアルエンコーダとして使用した場合は画像-テキスト検索(COCO、Flickr30K)で競争力の高い/リードする結果を示す。
- フュージョンエンコーダとして、VLMo は強力な VL 推論性能を提供し、いくつかの従来のフュージョンベースモデルを上回る。
- 画像のみおよびテキストのみデータを用いた段階的前訓練は下流の性能を大幅に向上させる。
- VLMo-Large++ は約1Bペアで訓練され、より大きなバッチサイズでいくつかのベンチマークで新記録を樹立。
- デュアルエンコーダとして使用した場合、線形時間エンコードのため従来の二次的フュージョンベースアプローチより検索が高速。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。