[論文レビュー] Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
ALBEFは、結合前に画像とテキストの対照的整列を導入し、結合とモメンタム蒸留を通じてノイズの多いウェブデータを活用し、境界ボックスなしで複数のvision-languageタスクで最先端の結果を達成します。画像とテキストのユニモーダルおよびマルチモーダル表現を共同で学習し、自己学習のための擬似ターゲットを生成するモメンタム教師を使用します。
Large-scale vision and language representation learning has shown promising improvements on various vision-language tasks. Most existing methods employ a transformer-based multimodal encoder to jointly model visual tokens (region-based image features) and word tokens. Because the visual tokens and word tokens are unaligned, it is challenging for the multimodal encoder to learn image-text interactions. In this paper, we introduce a contrastive loss to ALign the image and text representations BEfore Fusing (ALBEF) them through cross-modal attention, which enables more grounded vision and language representation learning. Unlike most existing methods, our method does not require bounding box annotations nor high-resolution images. In order to improve learning from noisy web data, we propose momentum distillation, a self-training method which learns from pseudo-targets produced by a momentum model. We provide a theoretical analysis of ALBEF from a mutual information maximization perspective, showing that different training tasks can be interpreted as different ways to generate views for an image-text pair. ALBEF achieves state-of-the-art performance on multiple downstream vision-language tasks. On image-text retrieval, ALBEF outperforms methods that are pre-trained on orders of magnitude larger datasets. On VQA and NLVR$^2$, ALBEF achieves absolute improvements of 2.37% and 3.84% compared to the state-of-the-art, while enjoying faster inference speed. Code and pre-trained models are available at https://github.com/salesforce/ALBEF/.
研究の動機と目的
- 検出器を用いない視覚言語事前学習フレームワークを動機づけ、開発する。結合前に画像とテキスト表現を整合させる。
- ユニモーダルエンコーダを安定させ、横断モーダル学習を促進する中間的な画像-テキスト対照損失(ITC)を提案する。
- ノイズの多いウェブデータからの学習を向上させるため、モーメンタム平均の教師を用いて擬似ターゲットを生成し、MoD(Momentum Distillation)を導入する。
- ALBEFがリトリーバル、VQA、NLVR2、VE、弱教師付きグラウンディングで良好に機能する頑健な視覚言語表現を学習することを示す。
- 設計選択を正当化するため、相互情報量最大化を通じた理論的枠組みを提供する。
提案手法
- 検出器なしの ViT ベース画像エンコーダと、トランスフォーマー型テキストエンコーダで画像とテキストをエンコードする。
- 各層でクロスモーダル注意機構を備えた6層のマルチモーダルトランスフォーマーを介して、画像とテキストを融合する。
- 融合前に画像とテキストを整合させるため、ユニモーダル表現上でITCを適用する。
- マルチモーダルエンコーダでITMを強化するため、バッチ内の難例ネガティブマイニングを用いる。
- MLMとITM損失で訓練し、マルチモーダル相互作用を学習する。ジョイント損失 L = L_itc + L_mlm + L_itm を最適化する。
- モメンタム蒸留(MoD)を用い、モーメンタムモデルを維持してITCとMLM損失の擬似ターゲットを生成し、元の損失と組み合わせる。重み係数 α(0.4)を用いて学習と下流性能を改善する。
実験結果
リサーチクエスチョン
- RQ1検出器を用いないVLPアプローチで、融合前の中間ITC損失がクロスモーダル相互作用学習を改善するか?
- RQ2モメンタム蒸留は、 Explicitな境界ボックスなしでノイズの多いウェブスケールの vision-language データから効果的に学習できるか?
- RQ3MI最大化の観点から、ITC、MLM、ITM、MoDがどのように相互作用して視覚言語表現を改善するか?
- RQ4ALBEFの各バリアントは、画像-テキストリトリーバル、VQA、NLVR2、VE、弱教師付きグラウンディングにおいて、最先端手法と比較してどの程度の性能向上を達成するか?
主な発見
- ALBEFは画像-テキストリトリーバルで最先端の性能を達成し、はるかに大きなデータで学習した方法を上回る。
- 検出器なしの入力でも、VQA、NLVR2、VEタスクで競争力のあるまたは優れた結果を達成し、検出器ベースの方法より推論が速い。
- MoDは事前学習と下流タスクを改善し、より大きくノイズの多いウェブデータからの学習を可能にする。
- ITC、MLM、ITM、MoDを組み合わせたALBEFは、 MLM+ITM や hard-negative ITM などのベースラインに対して、複数タスクで顕著な利得を示す。
- 相互情報量の視点から、ALBEFの構成要素は画像-テキスト表現間のMIを最大化する多様なビューを生成するとして説明できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。