[論文レビュー] LXMERT: Learning Cross-Modality Encoder Representations from Transformers
LXMERTは vision-language 表現を学習するための three-encoder transformer model を導入し、five multimodal tasks で事前学習を行い、VQAとGQAで最先端を達成し、NLVR2で顕著な成果を挙げる。
Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between these two modalities. We thus propose the LXMERT (Learning Cross-Modality Encoder Representations from Transformers) framework to learn these vision-and-language connections. In LXMERT, we build a large-scale Transformer model that consists of three encoders: an object relationship encoder, a language encoder, and a cross-modality encoder. Next, to endow our model with the capability of connecting vision and language semantics, we pre-train the model with large amounts of image-and-sentence pairs, via five diverse representative pre-training tasks: masked language modeling, masked object prediction (feature regression and label classification), cross-modality matching, and image question answering. These tasks help in learning both intra-modality and cross-modality relationships. After fine-tuning from our pre-trained parameters, our model achieves the state-of-the-art results on two visual question answering datasets (i.e., VQA and GQA). We also show the generalizability of our pre-trained cross-modality model by adapting it to a challenging visual-reasoning task, NLVR2, and improve the previous best result by 22% absolute (54% to 76%). Lastly, we demonstrate detailed ablation studies to prove that both our novel model components and pre-training strategies significantly contribute to our strong results; and also present several attention visualizations for the different encoders. Code and pre-trained models publicly available at: https://github.com/airsplay/lxmert
研究の動機と目的
- 視覚概念と言語意味論、およびそれらのクロスモーダルアライメントをモデル化することで、 vision-and-language 推論を動機づける。
- 言語、オブジェクト関係、および共同推論のための専用エンコーダを備えたクロスモーダル Transformer アーキテクチャを提案する。
- 大規模な画像-文章コーパス上で diverse multimodal tasks を用いて事前学習を行い、 intra-modality および cross-modality の依存関係を捉える。
- VQA および GQA で最先端の性能を示し、fine-tuning および ablations を通じて NLVR2 への一般化を示す。
提案手法
- Three encoders: 言語エンコーダ、オブジェクト関係エンコーダ、自己注意とクロス注意層で構成されたクロスモーダリティエンコーダ。
- Input embeddings that combine word-level sentence representations with position-aware object RoI embeddings from a detected-object detector.
- Five pre-training tasks: (i) masked cross-modality language modeling, (ii) RoI-feature regression for masked objects, (iii) detected-label classification for masked objects, (iv) cross-modality matching, (v) image question answering (QA).
- Cross-modality attentions enable bidirectional information exchange between language and vision, with a dedicated cross-modality encoder stacking multiple layers.
- Training on a large mixture of image-sentence data (9.18M pairs, 100M words, 6.5M objects) and maintaining a fixed object count (36 per image) for efficiency.
- Fine-tuning from pre-trained weights on VQA, GQA, and NLVR2 datasets to evaluate generalization and task adaptation.
実験結果
リサーチクエスチョン
- RQ1Transformer ベースのアーキテクチャをどのように設計すれば、明示的なクロスモーダル相互作用を伴って視覚と言語を共同にモデリングできるか。
- RQ2視覚-言語タスクのために、 intra-modality および cross-modality の関係を最もよく捉える事前学習目的は何か。
- RQ3クロスモーダリティ事前学習モデルは、単一モダリティや言語中心の事前学習と比べて、VQA、GQA、および NLVR2 の性能をどの程度改善できるか。
- RQ4モデル構成要素と事前学習タスクのアブレーションは、下流の視覚言語推論性能にどのように影響するか。
主な発見
- LXMERTは VQA と GQA の標準指標で最先端の結果を達成。
- NLVR2 では、ファインチューニングにより絶対的な改善が大きく、54% から 76% へと 22 ポイントの増加。
- アブレーション研究は、新規モデル要素(オブジェクト関係エンコーダとクロスモーダリティエンコーダ)と多様な事前学習タスクの双方が gains に寄与することを示す。
- 画像 QA タスクなしのクロスモーダリティ事前学習は劣ることが分かり、視覚と言語の表現には画像-質問回答データの利点があることを強調。
- 言語、オブジェクト関係、クロスモーダリティの各エンコーダの注意の視覚化は、テキストと視覚要素をどのようにつなぐかを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。