QUICK REVIEW

[論文レビュー] VisualBERT: A Simple and Performant Baseline for Vision and Language

Liunian Harold Li, Mark Yatskar|arXiv (Cornell University)|Aug 9, 2019

Multimodal Machine Learning Applications参考文献 37被引用数 1,231

ひとこと要約

VisualBERTは、テキストと画像領域を同時にエンコードする単純な Transformer ベースのモデルで、複数の vision-and-language タスクに対応します。COCO キャプションでの事前学習と、2つの視覚に基づく言語目標を使用して、競争力のある結果を達成します。

ABSTRACT

We propose VisualBERT, a simple and flexible framework for modeling a broad range of vision-and-language tasks. VisualBERT consists of a stack of Transformer layers that implicitly align elements of an input text and regions in an associated input image with self-attention. We further propose two visually-grounded language model objectives for pre-training VisualBERT on image caption data. Experiments on four vision-and-language tasks including VQA, VCR, NLVR2, and Flickr30K show that VisualBERT outperforms or rivals with state-of-the-art models while being significantly simpler. Further analysis demonstrates that VisualBERT can ground elements of language to image regions without any explicit supervision and is even sensitive to syntactic relationships, tracking, for example, associations between verbs and image regions corresponding to their arguments.

研究の動機と目的

多様なタスク（VQA、VCR、NLVR 2、Flickr30K）全体で、視覚と言語を同時に推論する、単純で柔軟なモデルを動機づける。
重いタスク特化型アーキテクチャを用いず、Transformer の自己注意機構を活用して、言語トークンと画像領域提案を暗黙的に整列させる。
画像とキャプションデータに対するタスク非特化の事前学習が、下流の V+L タスクへの転移を改善することを示す。

提案手法

物体検出器から得られる画像領域の視覚埋め込みを用いて BERT を拡張する。
テキスト埋め込みと視覚埋め込みを連結し、それらを共通の Transformer スタックに入力して共同処理を行う。
COCO キャプションで VisualBERT を2つの目的で事前学習する：画像コンテキストを用いたマスク済み言語モデリングと文と画像のマッチング。
下流の視覚と言語タスクにエンドツーエンドでファインチューニングし、任意でタスクデータに対するタスク特有の事前学習を行う。
早期フュージョンなしおよび COCO 事前学習なしを含むバリアントを比較して、コンポーネントの寄与を評価する。

実験結果

リサーチクエスチョン

RQ1単一の Transformer ベースのアーキテクチャで、複数の V+L タスクにわたって視覚と言語を同時にモデル化できるか？
RQ2全ての Transformer レイヤーにわたる視覚特徴と文本 features の早期フュージョンはパフォーマンスを向上させるか？
RQ3下流タスクへの転移において、画像とキャプションデータのタスク非特化事前学習がどれだけ重要か？
RQ4アテンションヘッドはどの程度、言語を画像領域へと結び付け、統語関係を反映するか？

主な発見

モデル	テスト-Dev	テスト-Std
VisualBERT	70.80	71.00

VisualBERT は VQA 2.0、VCR、NLVR 2、Flickr30K の grounding で競争力のある、または優れた性能を発揮し、しばしばより複雑なベースラインを上回る。
視覚と言語の早期フュージョン（Transformer レイヤ間の相互作用）は、性能を高く保つ上で極めて重要である。
COCO キャプションでのタスク非特化事前学習は結果を大幅に向上させ、COCO 事前学習をスキップすると性能は低下する。
VisualBERT は明示的な監視なしで言語を画像領域へ結びつけることができ、特定のアテンションヘッドは統語的依存関係を追跡する（例: 動詞とその引数）。
定性的分析では、アテンションパターンが層 across の整列を洗練させ、時間とともに曖昧な grounding を解決できることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。