Skip to main content
QUICK REVIEW

[论文解读] VL-BERT: Pre-training of Generic Visual-Linguistic Representations

Weijie Su, Xizhou Zhu|arXiv (Cornell University)|Aug 22, 2019
Multimodal Machine Learning Applications参考文献 45被引用 782
一句话总结

VL-BERT 引入了一种用于图像-文本数据和文本语料的统一视觉-语言 Transformer 预训练模型,在单模型、端到端的方案下,在 VCR、VQA 和指称表达任务上取得了最先进的结果。

ABSTRACT

We introduce a new pre-trainable generic representation for visual-linguistic tasks, called Visual-Linguistic BERT (VL-BERT for short). VL-BERT adopts the simple yet powerful Transformer model as the backbone, and extends it to take both visual and linguistic embedded features as input. In it, each element of the input is either of a word from the input sentence, or a region-of-interest (RoI) from the input image. It is designed to fit for most of the visual-linguistic downstream tasks. To better exploit the generic representation, we pre-train VL-BERT on the massive-scale Conceptual Captions dataset, together with text-only corpus. Extensive empirical analysis demonstrates that the pre-training procedure can better align the visual-linguistic clues and benefit the downstream tasks, such as visual commonsense reasoning, visual question answering and referring expression comprehension. It is worth noting that VL-BERT achieved the first place of single model on the leaderboard of the VCR benchmark. Code is released at \url{https://github.com/jackroos/VL-BERT}.

研究动机与目标

  • 开发一个通用、可预训练的视觉-语言表示,能够对多种下游任务进行微调。
  • 将视觉 RoI 特征和语言输入整合到一个 Transformer 主干中,并具备灵活的跨模态注意力。
  • 在大规模视觉-语言和纯文本语料上进行预训练,以对齐视觉和语言线索并提高泛化能力。
  • 展示在 VCR、VQA 和指称表达理解任务上,单模型达到最先进的性能。

提出的方法

  • 扩展 Transformer 架构,使其将单词输入和 RoI 输入作为统一序列进行处理。
  • 用 token、视觉特征、segment 和 position 嵌入来表示输入;为 RoIs 包含一个新的视觉特征嵌入。
  • 在视觉-语言数据上以两个任务进行预训练:带视觉线索的掩码语言建模和带语言线索的 RoI 分类掩码。
  • 在 Conceptual Captions(视觉-语言)和 BooksCorpus/Wikipedia(文本语料)上以 1:1 的采样混合进行预训练。
  • 使用针对任务的输入/输出格式(例如 <Question, Answer, Image>、<Caption, Image>)进行端到端微调以适应下游任务。

实验结果

研究问题

  • RQ1单个统一的 Transformer 基模型是否能够在多个任务中有效学习并对齐视觉与语言表示?
  • RQ2在视觉-语言和纯文本数据上的联合预训练是否提升下游视觉-语言任务的性能,相较于单一领域的预训练?
  • RQ3将视觉线索融入 MLM 和 RoI 分类对 VCR、VQA、RefCOCO+ 等下游任务的影响是什么?
  • RQ4一个预训练的 VL-BERT 模型是否能够在多样化基准测试中实现单一模型结构的最先进结果?

主要发现

  • VL-BERT 在单一统一模型下,在多个视觉-语言任务上取得了强劲的表现。
  • 在视觉-语言数据上的预训练相较于非预训练基线,在最终 VCR 任务(Q→AR)上提供约 1.0 百分点的提升。
  • VL-BERT LARGE 取得了具有竞争力的结果:VCR 验证集 Q→A 75.5,QA→R 75.8;测试集 Q→A 77.9,测试 QA→R 78.4;RefCOCO+ 验证 80.31,测试 A 83.62,测试 B 75.45;VQA 测试-dev 71.79,测试-std 72.22。
  • 在 VQA 上,VL-BERT BASE/LARGE 优于非预训练基线,并在单模型设置中超过一些同期方法(例如 Large 在 test-dev 取得 71.79,在 test-std 取得 72.22)。
  • 在 RefCOCO+ 上,VL-BERT LARGE 取得强劲结果(testA 83.62,testB 62.30,使用检测到的区域)。
  • VL-BERT 在出版时期的单模型方法中,展示了视觉常识推理(VCR)的最先进性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。