Skip to main content
QUICK REVIEW

[論文レビュー] A Survey of Vision-Language Pre-Trained Models

Yifan Du, Zikang Liu|arXiv (Cornell University)|Feb 18, 2022
Multimodal Machine Learning Applications被引用数 43
ひとこと要約

本調査は Vision-Language Pre-Trained Models (VL-PTMs) をレビューし、入力エンコード、視覚と言語の相互作用のアーキテクチャ、事前学習タスク、下流タスク、データセット、そして今後の方向性を扱う。

ABSTRACT

As transformer evolves, pre-trained models have advanced at a breakneck pace in recent years. They have dominated the mainstream techniques in natural language processing (NLP) and computer vision (CV). How to adapt pre-training to the field of Vision-and-Language (V-L) learning and improve downstream task performance becomes a focus of multimodal learning. In this paper, we review the recent progress in Vision-Language Pre-Trained Models (VL-PTMs). As the core content, we first briefly introduce several ways to encode raw images and texts to single-modal embeddings before pre-training. Then, we dive into the mainstream architectures of VL-PTMs in modeling the interaction between text and image representations. We further present widely-used pre-training tasks, and then we introduce some common downstream tasks. We finally conclude this paper and present some promising research directions. Our survey aims to provide researchers with synthesis and pointer to related research.

研究の動機と目的

  • VL-PTMs が事前学習前に画像とテキストを単一モーダル埋め込みへエンコードする方法を要約する。
  • 画像-テキスト相互作用をモデル化する主流のVL-PTM アーキテクチャ(融合エンコーダ、デュアルエンコーダ、ハイブリッド)をレビューする。
  • VL-PTMs にクロスモーダルなアライメントと推論を教える共通の事前学習タスクを詳述する。
  • モデルの能力をマッピングするために広く使用される事前学習データセットと下流の視覚言語タスクをカタログ化する。
  • 統一モデルと効率的なVL-PTM 展開に向けた主要な課題と有望な方向性を強調する。

提案手法

  • クロスモーダル融合前に使用されるテキストと画像の表現戦略(トークン化、埋め込み、モダリティ特異エンコーダ)を説明する。
  • VL-PTMs の三つのアーキテクチャパラダイムを論じる:融合エンコーダ(単一またはデュアルストリーム)、デュアルエンコーダ、そしてその両方の組み合わせ。
  • クロスモーダル事前学習タスクの核を説明する:cross-modal MLM、cross-modal MRP (MRC and MRFR)、ITM、そして cross-modal contrastive learning (CMCL) 。
  • CMCL が画像-テキストペアを用いて共通の意味空間をどのように可能にするかを例として CLIP/ALIGN や訓練戦略を含めて説明する。
  • クロスモーダルマッチング、推論、生成タスクへの下流適応アプローチを要約する。

実験結果

リサーチクエスチョン

  • RQ1現在のVL-PTMs を支えるアーキテクチャと入力表現は何で、性能と効率のトレードオフはどうなるか?
  • RQ2視覚と言語のモダリティを最もよくアライメントし、下流のV-L タスクへの転移を促進する事前学習タスクは何か?
  • RQ3VL-PTM の事前学習においてどのデータセットとデータ規模が鍵となり、汎化にはどのような影響があるか?
  • RQ4VL-PTMs はクロスモーダル検索、理解、生成タスクでどのように性能を発揮し、どの課題が残るか?
  • RQ5将来、統一的でスケーラブルかつデータ効率の高いVL-PTMs へどの方向性が有望か?

主な発見

  • 融合エンコーダはクロスモーダルな理解タスクで優れている一方、デュアルエンコーダは検索においてより効率的である。
  • MLM、MRP、ITM、CMCL のようなクロスモーダル事前学習タスクは、視覚と言語表現を整合させるうえで中心的である。
  • CMCL と大規模な画像-テキスト事前学習データセットは、ゼロショットとタスク横断の転移能力を強化する。
  • ハイブリッドアーキテクチャ(融合+デュアル)は、より良い一般化のために両 paradigms の長所を組み合わせることを目指す。
  • VL-PTMs は多様なデータセット(例:COCO、VG、SBU、そして大規模なウェブ規模コーパス)に依存して、普遍的なクロスモーダル表現を学習する。
  • 調査は統一モデルと効率的な展開へ向けた継続的な課題と有望な将来の方向性を特定している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。