Skip to main content
QUICK REVIEW

[論文レビュー] VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

Hangbo Bao, Wenhui Wang|arXiv (Cornell University)|Nov 3, 2021
Multimodal Machine Learning Applications参考文献 44被引用数 288
ひとこと要約

VLMo は、デュアルエンコーダによる効率的な検索と分類のための統一視覚言語プリトレーニングモデルを導入し、画像のみデータとテキストのみデータによる段階的事前学習で強化された Mixture-of-Modality-Experts (MoME) Transformer を備えています。

ABSTRACT

We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA, NLVR2 and image-text retrieval. The code and pretrained models are available at https://aka.ms/vlmo.

研究の動機と目的

  • 検索(デュアルエンコーダ)と分類(フュージョンエンコーダ)の両方のタスクをサポートする統一VLプリトレーニングを動機づける。
  • 共通バックボーン内で画像、テキスト、画像-テキストペアをエンコードする MoME Transformer を導入する。
  • VL 表現を改善するために、画像のみデータとテキストのみデータを活用した段階的プリトレーニングを提案する。
  • 標準VLベンチマークで VLMo を事前学習・微調整して最先端の結果を示す。

提案手法

  • モダリティ固有のエキスパート(ビジョン、言語、ビジョン-言語)と共有自己注意層を備える Mixture-of-Modality-Experts (MoME) Transformer を導入する。
  • エキスパートを介してモダリティ特有の処理を強制しつつ、視覚と言語内容を整合させるために注意機構を共有する。
  • image-text contrastive learning (ITC)、image-text matching (ITM)、and masked language modeling (MLM)の3タスクで前訓練を行う。
  • Stagewise pre-training: 最初に V-FFN と自己注意のための画像のみ前訓練、次に L-FFN のテキストのみ前訓練、続いて VL 前訓練。
  • 検索のためのデュアルエンコーダとして微調整(画像とテキストは別々にエンコード)、またはVL分類タスクのためのフュージョンエンコーダとして微調整。
  • 性能向上のためデータを拡大(最大 1B image-text ペア)およびバッチサイズを大きくする。

実験結果

リサーチクエスチョン

  • RQ1単一の MoME Transformer ボトムアップが視覚言語タスクにおいてデュアルエンコーダ検索とフュージョンエンコーダ分類の両方を効果的にサポートできるか?
  • RQ2画像のみおよびテキストのみのデータでの段階的プリトレーニングは、画像-テキストのみのプリトレーニングと比較して視覚言語表現を改善するか?
  • RQ3トップ MoME 層にビジョン-言語エキスパートを組み込むことでクロスモーダル相互作用にどんな利得が得られるか?

主な発見

Model # Pretrain Images VQA test-dev VQA test-std NLVR2 dev NLVR2 test-P
UNITER-Base4M72.7072.9177.1877.85
VILLA-Base4M73.5973.6778.3979.30
UNIMO-Base4M73.7974.02--
ViLT-Base4M71.26-75.7076.13
ALBEF-Base4M74.5474.7080.2480.50
VLMo-Base4M76.6476.8982.7783.34
UNITER-Large4M73.8274.0279.1279.98
VLMo-Large4M79.9479.9885.6486.86
VinVL-Large5.7M76.5276.6082.6783.98
SimVLM-Large1.8B79.3279.5684.1384.84
SimVLM-Huge1.8B80.0380.3484.5385.15
Florence-Huge900M80.1680.36--
VLMo-Large++1.0B82.8882.7888.6289.54
  • VLMo は VL 分類ベンチマーク(VQA、NLVR2)で最先端の結果を達成し、デュアルエンコーダとして使用した場合は画像-テキスト検索(COCO、Flickr30K)で競争力の高い/リードする結果を示す。
  • フュージョンエンコーダとして、VLMo は強力な VL 推論性能を提供し、いくつかの従来のフュージョンベースモデルを上回る。
  • 画像のみおよびテキストのみデータを用いた段階的前訓練は下流の性能を大幅に向上させる。
  • VLMo-Large++ は約1Bペアで訓練され、より大きなバッチサイズでいくつかのベンチマークで新記録を樹立。
  • デュアルエンコーダとして使用した場合、線形時間エンコードのため従来の二次的フュージョンベースアプローチより検索が高速。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。