Skip to main content
QUICK REVIEW

[論文レビュー] LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Hao Tan, Mohit Bansal|arXiv (Cornell University)|Aug 20, 2019
Multimodal Machine Learning Applications参考文献 44被引用数 223
ひとこと要約

LXMERTは vision-language 表現を学習するための three-encoder transformer model を導入し、five multimodal tasks で事前学習を行い、VQAとGQAで最先端を達成し、NLVR2で顕著な成果を挙げる。

ABSTRACT

Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between these two modalities. We thus propose the LXMERT (Learning Cross-Modality Encoder Representations from Transformers) framework to learn these vision-and-language connections. In LXMERT, we build a large-scale Transformer model that consists of three encoders: an object relationship encoder, a language encoder, and a cross-modality encoder. Next, to endow our model with the capability of connecting vision and language semantics, we pre-train the model with large amounts of image-and-sentence pairs, via five diverse representative pre-training tasks: masked language modeling, masked object prediction (feature regression and label classification), cross-modality matching, and image question answering. These tasks help in learning both intra-modality and cross-modality relationships. After fine-tuning from our pre-trained parameters, our model achieves the state-of-the-art results on two visual question answering datasets (i.e., VQA and GQA). We also show the generalizability of our pre-trained cross-modality model by adapting it to a challenging visual-reasoning task, NLVR2, and improve the previous best result by 22% absolute (54% to 76%). Lastly, we demonstrate detailed ablation studies to prove that both our novel model components and pre-training strategies significantly contribute to our strong results; and also present several attention visualizations for the different encoders. Code and pre-trained models publicly available at: https://github.com/airsplay/lxmert

研究の動機と目的

  • 視覚概念と言語意味論、およびそれらのクロスモーダルアライメントをモデル化することで、 vision-and-language 推論を動機づける。
  • 言語、オブジェクト関係、および共同推論のための専用エンコーダを備えたクロスモーダル Transformer アーキテクチャを提案する。
  • 大規模な画像-文章コーパス上で diverse multimodal tasks を用いて事前学習を行い、 intra-modality および cross-modality の依存関係を捉える。
  • VQA および GQA で最先端の性能を示し、fine-tuning および ablations を通じて NLVR2 への一般化を示す。

提案手法

  • Three encoders: 言語エンコーダ、オブジェクト関係エンコーダ、自己注意とクロス注意層で構成されたクロスモーダリティエンコーダ。
  • Input embeddings that combine word-level sentence representations with position-aware object RoI embeddings from a detected-object detector.
  • Five pre-training tasks: (i) masked cross-modality language modeling, (ii) RoI-feature regression for masked objects, (iii) detected-label classification for masked objects, (iv) cross-modality matching, (v) image question answering (QA).
  • Cross-modality attentions enable bidirectional information exchange between language and vision, with a dedicated cross-modality encoder stacking multiple layers.
  • Training on a large mixture of image-sentence data (9.18M pairs, 100M words, 6.5M objects) and maintaining a fixed object count (36 per image) for efficiency.
  • Fine-tuning from pre-trained weights on VQA, GQA, and NLVR2 datasets to evaluate generalization and task adaptation.

実験結果

リサーチクエスチョン

  • RQ1Transformer ベースのアーキテクチャをどのように設計すれば、明示的なクロスモーダル相互作用を伴って視覚と言語を共同にモデリングできるか。
  • RQ2視覚-言語タスクのために、 intra-modality および cross-modality の関係を最もよく捉える事前学習目的は何か。
  • RQ3クロスモーダリティ事前学習モデルは、単一モダリティや言語中心の事前学習と比べて、VQA、GQA、および NLVR2 の性能をどの程度改善できるか。
  • RQ4モデル構成要素と事前学習タスクのアブレーションは、下流の視覚言語推論性能にどのように影響するか。

主な発見

  • LXMERTは VQA と GQA の標準指標で最先端の結果を達成。
  • NLVR2 では、ファインチューニングにより絶対的な改善が大きく、54% から 76% へと 22 ポイントの増加。
  • アブレーション研究は、新規モデル要素(オブジェクト関係エンコーダとクロスモーダリティエンコーダ)と多様な事前学習タスクの双方が gains に寄与することを示す。
  • 画像 QA タスクなしのクロスモーダリティ事前学習は劣ることが分かり、視覚と言語の表現には画像-質問回答データの利点があることを強調。
  • 言語、オブジェクト関係、クロスモーダリティの各エンコーダの注意の視覚化は、テキストと視覚要素をどのようにつなぐかを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。