[論文レビュー] Unified Vision-Language Pre-Training for Image Captioning and VQA
単一の統合ビジョン-言語事前学習(VLP)モデルが、双方向およびseq2seqマスキングの両方を備えた共有エンコーダ-デコーダ Transformer を使用して、画像-テキストペアを事前学習し、COCO、Flickr30k、VQA 2.0 全体で画像キャプション生成と VQA において最先端の結果を達成。
This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in that (1) it can be fine-tuned for either vision-language generation (e.g., image captioning) or understanding (e.g., visual question answering) tasks, and (2) it uses a shared multi-layer transformer network for both encoding and decoding, which differs from many existing methods where the encoder and decoder are implemented using separate models. The unified VLP model is pre-trained on a large amount of image-text pairs using the unsupervised learning objectives of two tasks: bidirectional and sequence-to-sequence (seq2seq) masked vision-language prediction. The two tasks differ solely in what context the prediction conditions on. This is controlled by utilizing specific self-attention masks for the shared transformer network. To the best of our knowledge, VLP is the first reported model that achieves state-of-the-art results on both vision-language generation and understanding tasks, as disparate as image captioning and visual question answering, across three challenging benchmark datasets: COCO Captions, Flickr30k Captions, and VQA 2.0. The code and the pre-trained models are available at https://github.com/LuoweiZhou/VLP.
研究の動機と目的
- ビジョン-言語の生成と理解タスクの双方を扱える単一の統合モデルの必要性を動機づける(例:画像キャプション生成とVQA)。
- エンコーディングとデコーディングのパラメータを共有する統一されたエンコーダ-デコーダ Transformer を提案する。
- 大規模な画像-テキストペアで、2 つの目的(双方向マスク付き視覚言語予測と seq2seq マスク付き予測)で事前学習する。
- 統一された VLP が複数のビジョン-言語ベンチマークで最先端の結果を達成することを示す。
- 共同の事前学習と微調整が学習を高速化し、下流の性能を向上させることを示す。
提案手法
- エンコーディングとデコーディングの両方に使用する、12 層の単一のビジョン-言語トランスフォーマーを使用する。
- 画像を領域提案として表現し、領域特徴、クラス確率、およびジオメトリを領域埋め込みに組み込む。
- 異なる自己注意マスクを用いたマスクド言語モデリングによる双方向予測とシーケンスツーシーケンス(seq2seq)予測という、2 つの教師なし事前学習目的を適用する。
- 自己注意マスクを調整して、完全な双方向コンテキストまたは自己回帰型 seq2seq コンテキストのいずれかを可能にすることで、予測の文脈を制御する。
- 下流タスク向けに微調整する: seq2seq 生成による画像キャプション生成と、固定の回答語彙に対するマルチラベル分類としての VQA。
- 事前学習には Conceptual Captions で訓練し、下流タスクの評価は COCO Captions、Flickr30k Captions、VQA 2.0 で行う。
- 以前のビジョン-言語事前学習手法と比較し、事前学習目的、初期化、および入力設計の効果をアブレーションする。
実験結果
リサーチクエスチョン
- RQ1共有パラメータを持つ単一の統一エンコーダ-デコーダモデルは、ビジョン-言語の生成と理解タスクの両方を効果的にサポートできるか。
- RQ2双方向および seq2seq のビジョン-言語事前学習目的を同時に訓練した場合、画像キャプション生成と VQA の両方で改善をもたらすか。
- RQ3大規模な画像-テキストデータでの事前学習は、言語のみの事前学習や事前学習なしと比べて下流の学習を加速し、性能を向上させるか。
- RQ4設計選択(領域入力、前処理タスク、およびモデル初期化)が下流のビジョン-言語タスクに与える影響は何か。
主な発見
- 統一された VLP モデルは、COCO Captions、Flickr30k、VQA 2.0 すべてで画像キャプション生成と VQA において最先端の結果を達成。
- ビジョン-言語目的を用いた事前学習は、事前学習なしまたは言語のみのベースラインと比べて、下流の微調整を大幅に速度アップし、タスクの性能を向上させる。
- 双方向と seq2seq の目的を共同で訓練することにより、生成(キャプション)と理解(VQA)の両方のタスクへよく転送される堅牢な表現が得られる。
- UniLM または BERT 系言語モデルからの初期化と領域レベルの入力の組み込みは、キャプション生成と VQA の性能を向上させる。
- 単一の共有トランスフォーマー型アーキテクチャは、タスク特化型モデルの必要性を減らしつつ、下流の精度を維持できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。