Skip to main content
QUICK REVIEW

[论文解读] LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Hao Tan, Mohit Bansal|arXiv (Cornell University)|Aug 20, 2019
Multimodal Machine Learning Applications参考文献 44被引用 223
一句话总结

LXMERT 引入一个三编码器的 Transformer 模型来学习视听表示,通过五个多模态任务进行预训练,在 VQA 和 GQA 上达到最先进的水平,并在 NLVR2 上取得显著提升。

ABSTRACT

Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between these two modalities. We thus propose the LXMERT (Learning Cross-Modality Encoder Representations from Transformers) framework to learn these vision-and-language connections. In LXMERT, we build a large-scale Transformer model that consists of three encoders: an object relationship encoder, a language encoder, and a cross-modality encoder. Next, to endow our model with the capability of connecting vision and language semantics, we pre-train the model with large amounts of image-and-sentence pairs, via five diverse representative pre-training tasks: masked language modeling, masked object prediction (feature regression and label classification), cross-modality matching, and image question answering. These tasks help in learning both intra-modality and cross-modality relationships. After fine-tuning from our pre-trained parameters, our model achieves the state-of-the-art results on two visual question answering datasets (i.e., VQA and GQA). We also show the generalizability of our pre-trained cross-modality model by adapting it to a challenging visual-reasoning task, NLVR2, and improve the previous best result by 22% absolute (54% to 76%). Lastly, we demonstrate detailed ablation studies to prove that both our novel model components and pre-training strategies significantly contribute to our strong results; and also present several attention visualizations for the different encoders. Code and pre-trained models publicly available at: https://github.com/airsplay/lxmert

研究动机与目标

  • 通过建模视觉概念、语言语义及其跨模态对齐,推动视觉-语言推理。
  • 提出一种跨模态 Transformer 架构,具有用于语言、对象关系和联合推理的专用编码器。
  • 在大型图像-句子语料库上使用多样的多模态任务进行预训练,以捕捉同模态内和跨模态的依赖关系。
  • 在 VQA 和 GQA 上展示最新效果,并通过微调和消融实验展示对 NLVR2 的泛化能力。

提出的方法

  • 三编码器:语言编码器、对象关系编码器,以及由自注意力和交叉注意力层构建的跨模态编码器。
  • 输入嵌入将逐词句子表示与来自检测对象检测器的带位置信息的对象 RoI 嵌入相结合。
  • Five pre-training tasks: (i) masked cross-modality language modeling, (ii) RoI-feature regression for masked objects, (iii) detected-label classification for masked objects, (iv) cross-modality matching, (v) image question answering (QA).
  • 跨模态注意力使语言和视觉之间能够双向信息交换,配备了一个堆叠多层的专用跨模态编码器。
  • 在大型图像-句子数据混合上进行训练(9.18M 对,100M 字,6.5M 个对象),为了效率,保持每张图像固定的对象数量(36 个)。
  • 在 VQA、GQA 和 NLVR2 数据集上对预训练权重进行微调,以评估泛化和任务适应性。

实验结果

研究问题

  • RQ1如何设计基于 Transformer 的架构,以在显式跨模态交互下联合建模视觉和语言?
  • RQ2哪些预训练目标最能捕捉视觉-语言任务中的模态内和跨模态关系?
  • RQ3相比单模态或以语言为主的预训练,跨模态预训练模型在提升 VQA、GQA 和 NLVR2 性能方面能达到何种程度?
  • RQ4模型组件和预训练任务的消融如何影响下游的视觉-语言推理性能?

主要发现

  • LXMERT 在 VQA 和 GQA 的标准指标上达到最先进的结果。
  • 在 NLVR2 上,微调带来 22 个百分点的绝对提升(从 54% 提升到 76% 的准确率)。
  • 消融研究表明,新颖的模型组件(对象关系编码器和跨模态编码器)以及多样的预训练任务都显著贡献于提升。
  • 不包含图像问答任务的跨模态预训练表现不佳,强调了图像问答数据对视觉-语言表示的好处。
  • 语言、对象关系和跨模态编码器的注意力可视化说明了模型如何连接文本与视觉元素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。