QUICK REVIEW

[论文解读] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

F. Richard Yu, Jiji Tang|arXiv (Cornell University)|Jun 30, 2020

Multimodal Machine Learning Applications参考文献 32被引用 118

一句话总结

ERNIE-ViL 引入场景图预测任务，将结构化场景知识注入视觉-语言预训练，在五个下游任务上取得最先进成果，并在 VCR 榜单上以绝对优势领先 3.7%。

ABSTRACT

We propose a knowledge-enhanced approach, ERNIE-ViL, which incorporates structured knowledge obtained from scene graphs to learn joint representations of vision-language. ERNIE-ViL tries to build the detailed semantic connections (objects, attributes of objects and relationships between objects) across vision and language, which are essential to vision-language cross-modal tasks. Utilizing scene graphs of visual scenes, ERNIE-ViL constructs Scene Graph Prediction tasks, i.e., Object Prediction, Attribute Prediction and Relationship Prediction tasks in the pre-training phase. Specifically, these prediction tasks are implemented by predicting nodes of different types in the scene graph parsed from the sentence. Thus, ERNIE-ViL can learn the joint representations characterizing the alignments of the detailed semantics across vision and language. After pre-training on large scale image-text aligned datasets, we validate the effectiveness of ERNIE-ViL on 5 cross-modal downstream tasks. ERNIE-ViL achieves state-of-the-art performances on all these tasks and ranks the first place on the VCR leaderboard with an absolute improvement of 3.7%.

研究动机与目标

通过捕捉细粒度的跨模态语义（对象、属性、关系）来推动改进视觉-语言预训练。
将来自场景图的结构化知识整合到预训练中，以增强跨模态对齐。
证明以场景图为引导的预训练在多个跨模态基准上带来提升。

提出的方法

通过对句子解析得到的场景图中的对象、属性和关系进行掩码并预测，构建场景图预测任务。
使用双流跨模态Transformer架构，结合跨模态注意力联合建模图像区域和文本。
以场景图预测损失、MLM、掩码区域预测和图像-文本匹配的组合进行预训练。
从文本解析得到的场景图引导有针对性的预测：对象预测、属性预测、关系预测。
对象/属性/关系节点采用特定策略进行掩码，并利用文本和图像区域的上下文进行恢复。

实验结果

研究问题

RQ1在预训练阶段融入结构化的场景图知识是否能提升对细粒度的视觉-语言理解？
RQ2场景图预测任务是否能在对象、属性和关系等跨模态对齐方面带来改进？
RQ3相较于以往的预训练方法，ERNIE-ViL 在标准视觉-语言基准（VCR、VQA、RefCOCO+、基于 Flickr 的检索）上的表现如何？
RQ4在使用场景图引导目标时，域内与域外预训练数据的影响是什么？

主要发现

在五个下游视觉-语言任务上达到最先进的结果。
在 VCR 上，ERNIE-ViL-large 相较 baselines 取得显著提升，且该模型在 VCR 榜单中排名第一，对 Q→AR 相较 prior 方法有绝对提升 3.7%。
使用场景图预测时，Region-to-Phrase 定位（RefCOCO+）显示显著改进（测试集上提升 2.4%）。
使用场景图预测进行预训练在多任务上提供可测量的提升，并在与 ERNIE-2.0 或 BERT 初始化的模型比较时有文档化的改进。
完形填空测试显示具备场景图预测任务的模型在对象、属性和关系预测上更具优势，表明更强的跨模态细粒度语义理解。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。