[论文解读] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
ERNIE-ViL 引入场景图预测任务,将结构化场景知识注入视觉-语言预训练,在五个下游任务上取得最先进成果,并在 VCR 榜单上以绝对优势领先 3.7%。
We propose a knowledge-enhanced approach, ERNIE-ViL, which incorporates structured knowledge obtained from scene graphs to learn joint representations of vision-language. ERNIE-ViL tries to build the detailed semantic connections (objects, attributes of objects and relationships between objects) across vision and language, which are essential to vision-language cross-modal tasks. Utilizing scene graphs of visual scenes, ERNIE-ViL constructs Scene Graph Prediction tasks, i.e., Object Prediction, Attribute Prediction and Relationship Prediction tasks in the pre-training phase. Specifically, these prediction tasks are implemented by predicting nodes of different types in the scene graph parsed from the sentence. Thus, ERNIE-ViL can learn the joint representations characterizing the alignments of the detailed semantics across vision and language. After pre-training on large scale image-text aligned datasets, we validate the effectiveness of ERNIE-ViL on 5 cross-modal downstream tasks. ERNIE-ViL achieves state-of-the-art performances on all these tasks and ranks the first place on the VCR leaderboard with an absolute improvement of 3.7%.
研究动机与目标
- 通过捕捉细粒度的跨模态语义(对象、属性、关系)来推动改进视觉-语言预训练。
- 将来自场景图的结构化知识整合到预训练中,以增强跨模态对齐。
- 证明以场景图为引导的预训练在多个跨模态基准上带来提升。
提出的方法
- 通过对句子解析得到的场景图中的对象、属性和关系进行掩码并预测,构建场景图预测任务。
- 使用双流跨模态Transformer架构,结合跨模态注意力联合建模图像区域和文本。
- 以场景图预测损失、MLM、掩码区域预测和图像-文本匹配的组合进行预训练。
- 从文本解析得到的场景图引导有针对性的预测:对象预测、属性预测、关系预测。
- 对象/属性/关系节点采用特定策略进行掩码,并利用文本和图像区域的上下文进行恢复。
实验结果
研究问题
- RQ1在预训练阶段融入结构化的场景图知识是否能提升对细粒度的视觉-语言理解?
- RQ2场景图预测任务是否能在对象、属性和关系等跨模态对齐方面带来改进?
- RQ3相较于以往的预训练方法,ERNIE-ViL 在标准视觉-语言基准(VCR、VQA、RefCOCO+、基于 Flickr 的检索)上的表现如何?
- RQ4在使用场景图引导目标时,域内与域外预训练数据的影响是什么?
主要发现
- 在五个下游视觉-语言任务上达到最先进的结果。
- 在 VCR 上,ERNIE-ViL-large 相较 baselines 取得显著提升,且该模型在 VCR 榜单中排名第一,对 Q→AR 相较 prior 方法有绝对提升 3.7%。
- 使用场景图预测时,Region-to-Phrase 定位(RefCOCO+)显示显著改进(测试集上提升 2.4%)。
- 使用场景图预测进行预训练在多任务上提供可测量的提升,并在与 ERNIE-2.0 或 BERT 初始化的模型比较时有文档化的改进。
- 完形填空测试显示具备场景图预测任务的模型在对象、属性和关系预测上更具优势,表明更强的跨模态细粒度语义理解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。