[论文解读] Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
X-VLM 通过在推理阶段不需要边框输入,将文本与视觉概念(对象、区域、图像)对齐,呈现多粒度的视觉-语言预训练,在多项视觉-语言任务上达到最先进水平。
Most existing methods in vision language pre-training rely on object-centric features extracted through object detection and make fine-grained alignments between the extracted features and texts. It is challenging for these methods to learn relations among multiple objects. To this end, we propose a new method called X-VLM to perform `multi-grained vision language pre-training.' The key to learning multi-grained alignments is to locate visual concepts in the image given the associated texts, and in the meantime align the texts with the visual concepts, where the alignments are in multi-granularity. Experimental results show that X-VLM effectively leverages the learned multi-grained alignments to many downstream vision language tasks and consistently outperforms state-of-the-art methods.
研究动机与目标
- 激发超越基于对象或全图表示的视觉-语言对齐学习。
- 通过在对象、区域和图像层面将文本与视觉概念关联起来,实现多粒度对齐。
- 开发一个训练目标,能够同时定位视觉概念并将其与文本描述对齐。
- 在推理阶段无需边框输入的情况下,证明其在下游视觉-语言任务中的有效性。
提出的方法
- 将视觉概念表示为来自视觉变换器的多粒度输出,包括对象、区域和整张图像。
- 将预训练数据表述为每张图像具有多个边界框,每个边界框链接到相关概念的文本描述。
- 通过边界框预测(框回归 + IoU)和用于对齐的多任务损失进行优化:对比损失、匹配损失和掩码语言建模损失。
- 使用跨模态变换器在每一层通过交叉注意力来融合视觉与语言特征。
- 在 4M 和 16M 图像设置下进行训练,以评估数据效率和可扩展性,使用 AdamW 优化和预定的学习率预热。
- 推理阶段避免边界框注释;利用学习到的多粒度对齐来完成下游任务。
实验结果
研究问题
- RQ1在预训练阶段,是否可以将多粒度的视觉概念(对象、区域和图像级概念)与文本描述对齐?
- RQ2同时定位视觉概念并将其与文本对齐是否会提升检索、推理、定位和描述任务的性能?
- RQ3与基于对象的和粗粒度的视觉-语言模型在标准基准上相比,X-VLM 的表现如何?
- RQ4在适中规模的模型和训练数据下,是否可实现强劲的视觉-语言性能?
主要发现
- X-VLM 在图像文本检索(MSCOCO 和 Flickr30K)上超越了最先进方法,在 4M 和 16M 预训练设置中均如此。
- 在 MSCOCO 上,X-VLM (4M) 在 TR 上达到 80.4/95.5/98.2,在 IR 上达到 63.1/85.7/91.6;而 X-VLM (16M) 在 TR 上达到 81.2/95.6/98.2,在 IR 上达到 63.4/85.8/91.5。
- X-VLM 在视觉推理(VQA 和 NLVR2)和视觉定位(RefCOCO+)方面超过 VinVL 等基线,在定位方面尤有提升(在 RefCOCO+ 上相对 UNITER 提升 4.5% 的绝对值)。
- X-VLM 提供与 SoTA 生成方法相当的图像描述结果,微调后观察到 CIDEr 的提升。
- 消融实验表明,移除对象或区域概念或边框回归损失会降低性能,凸显多粒度学习的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。