Skip to main content
QUICK REVIEW

[论文解读] VisualBERT: A Simple and Performant Baseline for Vision and Language

Liunian Harold Li, Mark Yatskar|arXiv (Cornell University)|Aug 9, 2019
Multimodal Machine Learning Applications参考文献 37被引用 1,231
一句话总结

VisualBERT 是一个简单的基于 Transformer 的模型,它联合对文本和图像区域进行编码,以完成多种视觉与语言任务,使用在 COCO 标注上的预训练和两个基于视觉的语言目标来实现具有竞争力的结果。

ABSTRACT

We propose VisualBERT, a simple and flexible framework for modeling a broad range of vision-and-language tasks. VisualBERT consists of a stack of Transformer layers that implicitly align elements of an input text and regions in an associated input image with self-attention. We further propose two visually-grounded language model objectives for pre-training VisualBERT on image caption data. Experiments on four vision-and-language tasks including VQA, VCR, NLVR2, and Flickr30K show that VisualBERT outperforms or rivals with state-of-the-art models while being significantly simpler. Further analysis demonstrates that VisualBERT can ground elements of language to image regions without any explicit supervision and is even sensitive to syntactic relationships, tracking, for example, associations between verbs and image regions corresponding to their arguments.

研究动机与目标

  • 激励一个简单、灵活的模型,在多样化任务(VQA、VCR、NLVR 2、Flickr30K)中共同推理视觉与语言。
  • 利用 Transformer 自注意力,在不需要繁重的特定任务架构的情况下,隐式地将语言标记与图像区域提案对齐。
  • 证明在图像-字幕数据上的任务无关预训练能提升向下游视觉与语言任务的迁移效果。

提出的方法

  • 将来自目标检测器的图像区域的视觉嵌入扩展到 BERT。
  • 将文本嵌入与视觉嵌入连接起来,并输入到一个共享的 Transformer 堆栈中进行联合处理。
  • 在 COCO 标注上对 VisualBERT 进行预训练,使用两种目标:带有图像上下文的掩码语言建模和句子-图像匹配。
  • 在下游视觉与语言任务上端对端微调,任务数据上可选的任务特定预训练。
  • 比较包括不进行早期融合的 VisualBERT 和未进行 COCO 预训练的变体,以评估组件的贡献。

实验结果

研究问题

  • RQ1单一的基于 Transformer 的架构是否能够在多项 V+L 任务中同时建模视觉与语言?
  • RQ2在所有 Transformer 层对视觉与文本特征进行早期融合是否能提升性能?
  • RQ3在图像-字幕数据上的任务无关预训练对于迁移到下游任务的重要性有多大?
  • RQ4注意力头在多大程度上将语言对齐到图像区域并反映句法关系?

主要发现

  • VisualBERT 在 VQA 2.0、VCR、NLVR 2 和 Flickr30K 定位/对齐方面达到有竞争力或更优的性能,往往超越更复杂的基线。
  • 视觉与语言的早期融合(跨 Transformer 层的交互)对获得强劲性能至关重要。
  • 在 COCO 标注上的任务无关预训练显著提升结果;跳过 COCO 预训练会降低性能。
  • VisualBERT 能在没有显式监督的情况下将语言对齐到图像区域,且某些注意力头能够跟踪句法依赖关系(例如动词及其论元)。
  • 定性分析表明注意力模式在各层中细化对齐,并且能随时间解决模糊的对齐问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。