Skip to main content
QUICK REVIEW

[論文レビュー] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Jiasen Lu, Dhruv Batra|arXiv (Cornell University)|Aug 6, 2019
Multimodal Machine Learning Applications参考文献 30被引用数 1,673
ひとこと要約

ViLBERTは、共注意機構を備えた二-streamモデルを導入し、大規模なキャプションベースデータ上で視覚と言語表現を事前学習し、多様な vision-and-language タスクへ転移させ、最先端の成果を達成します。

ABSTRACT

We present ViLBERT (short for Vision-and-Language BERT), a model for learning task-agnostic joint representations of image content and natural language. We extend the popular BERT architecture to a multi-modal two-stream model, pro-cessing both visual and textual inputs in separate streams that interact through co-attentional transformer layers. We pretrain our model through two proxy tasks on the large, automatically collected Conceptual Captions dataset and then transfer it to multiple established vision-and-language tasks -- visual question answering, visual commonsense reasoning, referring expressions, and caption-based image retrieval -- by making only minor additions to the base architecture. We observe significant improvements across tasks compared to existing task-specific models -- achieving state-of-the-art on all four tasks. Our work represents a shift away from learning groundings between vision and language only as part of task training and towards treating visual grounding as a pretrainable and transferable capability.

研究の動機と目的

  • 単一でタスクに依存しない視覚と言語(V+L)タスクの事前学習アプローチを動機づけ、多様な下流タスクへ転移可能であること。
  • 視覚情報とテキスト情報を効果的に融合する共注意の二-streamアーキテクチャを開発する。
  • 大規模なキャプション様データによる事前学習が、キャプション付け自体を超えてVQA、VCR、および referring expression タスクに有益であることを示す。

提案手法

  • 視覚的入力とテキスト入力を横断モーダル注意機構で処理する共注意の二-streamモデルを導入する。
  • 視覚と言語データを大規模に事前学習し、V+Lタスク全体で一般化する grounded 表現を学習する。
  • 事前学習の構成要素(例:マスキング損失、整列損失、共注意)を除去して、下流タスクへの影響を評価する。
  • ベースラインと比較し、キャプション風データから非キャプション風タスク(VQA、VCR、RefCOCO+)への転移を議論する。
  • 層と注意の方向性を跨いだ grounding 振る舞いを分析するために注意パターンを可視化する。

実験結果

リサーチクエスチョン

  • RQ1単一の視覚と言語の事前学習目的が、タスク固有のヘッドなしで複数のV+Lタスクへ効果的に転移する表現を生み出せるか。
  • RQ2共注意の二-streamアーキテクチャは、視覚と言語のタスクにおいて、単一モーダルモデルの拡張(例:BERT)を上回るか。
  • RQ3異なる事前学習要素(マスキング、整列、共注意)が下流のV+L性能に与える影響は何か。
  • RQ4大規模なキャプション様データ(Conceptual Captions)による事前学習が、非事前学習や grounding なしの学習と比較してVQA、RefCOCO+、VCRの性能にどのように影響するか。
  • RQ5層とモーダリティを超えた grounding および attention grounding の特性は何か。

主な発見

  • 視覚と言語タスクでの性能が改善され、最近のVQAチャレンジの優勝者を上回ったと報じられ、強力な最先端の可能性を示します。
  • アブレーションは、マスキング、整列、共注意を削除すると下流タスクの性能が低下することを示し、特にマスキング損失が重要である。
  • Conceptual Captionsによる事前学習は、CCと下流タスク間のドメイン差があるにもかかわらず、キャプションベースの検索を超えたV+Lタスクへ転移を可能にする。
  • 可視化は、画像→テキストの共注意が層の早い段階で groundingしやすく、テキスト→画像の共注意は早い層での grounding に加え、後半層でより広く grounding する傾向があることを示す。
  • 完全な事前学習とw/o pretraining構成を比較すると、VQAとRefCOCO+で顕著な改善を示し、視覚と言語の事前学習の有効性を支持しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。