Skip to main content
QUICK REVIEW

[论文解读] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

F. Richard Yu, Jiji Tang|arXiv (Cornell University)|Jun 30, 2020
Multimodal Machine Learning Applications参考文献 32被引用 118
一句话总结

ERNIE-ViL 引入场景图预测任务,将结构化场景知识注入视觉-语言预训练,在五个下游任务上取得最先进成果,并在 VCR 榜单上以绝对优势领先 3.7%。

ABSTRACT

We propose a knowledge-enhanced approach, ERNIE-ViL, which incorporates structured knowledge obtained from scene graphs to learn joint representations of vision-language. ERNIE-ViL tries to build the detailed semantic connections (objects, attributes of objects and relationships between objects) across vision and language, which are essential to vision-language cross-modal tasks. Utilizing scene graphs of visual scenes, ERNIE-ViL constructs Scene Graph Prediction tasks, i.e., Object Prediction, Attribute Prediction and Relationship Prediction tasks in the pre-training phase. Specifically, these prediction tasks are implemented by predicting nodes of different types in the scene graph parsed from the sentence. Thus, ERNIE-ViL can learn the joint representations characterizing the alignments of the detailed semantics across vision and language. After pre-training on large scale image-text aligned datasets, we validate the effectiveness of ERNIE-ViL on 5 cross-modal downstream tasks. ERNIE-ViL achieves state-of-the-art performances on all these tasks and ranks the first place on the VCR leaderboard with an absolute improvement of 3.7%.

研究动机与目标

  • 通过捕捉细粒度的跨模态语义(对象、属性、关系)来推动改进视觉-语言预训练。
  • 将来自场景图的结构化知识整合到预训练中,以增强跨模态对齐。
  • 证明以场景图为引导的预训练在多个跨模态基准上带来提升。

提出的方法

  • 通过对句子解析得到的场景图中的对象、属性和关系进行掩码并预测,构建场景图预测任务。
  • 使用双流跨模态Transformer架构,结合跨模态注意力联合建模图像区域和文本。
  • 以场景图预测损失、MLM、掩码区域预测和图像-文本匹配的组合进行预训练。
  • 从文本解析得到的场景图引导有针对性的预测:对象预测、属性预测、关系预测。
  • 对象/属性/关系节点采用特定策略进行掩码,并利用文本和图像区域的上下文进行恢复。

实验结果

研究问题

  • RQ1在预训练阶段融入结构化的场景图知识是否能提升对细粒度的视觉-语言理解?
  • RQ2场景图预测任务是否能在对象、属性和关系等跨模态对齐方面带来改进?
  • RQ3相较于以往的预训练方法,ERNIE-ViL 在标准视觉-语言基准(VCR、VQA、RefCOCO+、基于 Flickr 的检索)上的表现如何?
  • RQ4在使用场景图引导目标时,域内与域外预训练数据的影响是什么?

主要发现

  • 在五个下游视觉-语言任务上达到最先进的结果。
  • 在 VCR 上,ERNIE-ViL-large 相较 baselines 取得显著提升,且该模型在 VCR 榜单中排名第一,对 Q→AR 相较 prior 方法有绝对提升 3.7%。
  • 使用场景图预测时,Region-to-Phrase 定位(RefCOCO+)显示显著改进(测试集上提升 2.4%)。
  • 使用场景图预测进行预训练在多任务上提供可测量的提升,并在与 ERNIE-2.0 或 BERT 初始化的模型比较时有文档化的改进。
  • 完形填空测试显示具备场景图预测任务的模型在对象、属性和关系预测上更具优势,表明更强的跨模态细粒度语义理解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。