[论文解读] Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning
SOHO 提出了一种端到端的视-言预训练模型,使用可训练的视觉编码器和一个动态视觉字典,从图像-文本对中学习跨模态表示,实现更快的推理速度,并在若干 VL 任务上达到类似于最先进方法的提升。
We study joint learning of Convolutional Neural Network (CNN) and Transformer for vision-language pre-training (VLPT) which aims to learn cross-modal alignments from millions of image-text pairs. State-of-the-art approaches extract salient image regions and align regions with words step-by-step. As region-based visual features usually represent parts of an image, it is challenging for existing vision-language models to fully understand the semantics from paired natural languages. In this paper, we propose SOHO to "See Out of tHe bOx" that takes a whole image as input, and learns vision-language representation in an end-to-end manner. SOHO does not require bounding box annotations which enables inference 10 times faster than region-based approaches. In particular, SOHO learns to extract comprehensive yet compact image features through a visual dictionary (VD) that facilitates cross-modal understanding. VD is designed to represent consistent visual abstractions of similar semantics. It is updated on-the-fly and utilized in our proposed pre-training task Masked Visual Modeling (MVM). We conduct experiments on four well-established vision-language tasks by following standard VLPT settings. In particular, SOHO achieves absolute gains of 2.0% R@1 score on MSCOCO text retrieval 5k test split, 1.5% accuracy on NLVR$^2$ test-P split, 6.7% accuracy on SNLI-VE test split, respectively.
研究动机与目标
- 在不使用边界框区域特征的情况下,提出端到端的视-语言预训练。
- 解决密集视觉特征与语言标记之间的语义差距。
- 引入一个视觉字典以产生紧凑的视觉标记,并在训练期间实现动态更新。
- 将 Masked Vision Modeling、Masked Language Modeling 和 Image-Text Matching 作为预训练目标进行开发。
提出的方法
- 使用一个可训练的 CNN 视觉编码器来提取整张图像特征。
- 引入一个视觉字典 (VD),将视觉特征映射到 k 个簇中心,并通过移动平均(动量)规则进行更新。
- 为 VD 定义一个不可微的最近邻映射,并应用 stop-gradient 更新以实现端到端训练。
- 用三个目标进行训练:MLM、MVM 和 ITM,组合形成预训练目标。
- 在领域内的 VG 和 MSCOCO 数据上进行预训练,以学习跨模态表示。
- 在下游任务上进行微调,包括 image-text retrieval、VQA、NLVR 和 visual entailment。
实验结果
研究问题
- RQ1在没有基于区域特征的情况下,端到端的 VLPT 能否从图像-文本对学习出有效的跨模态表示?
- RQ2动态更新的视觉字典是否相较于基于区域或网格的特征提升跨模态对齐?
- RQ3SOHO 在标准 VL 任务上的性能与效率提升有哪些?
- RQ4在跨模态学习中,预训练损失(MLM、MVM、ITM)应如何平衡以获得最佳效果?
主要发现
- SOHO 在若干 VL 基准上取得显著提升:在 MSCOCO text retrieval (5k test split) 上实现 2.0% 的绝对 R@1 增长。
- 在 NLVR 2 test-P 分割上实现 1.5% 的准确率提升。
- 在 SNLI-VE test 分割上实现 6.7% 的准确率提升。
- 在 VQA2.0 test-std 分割上实现 0.56% 的 VQA 分数提升。
- 由于端到端处理且无区域提议,SOHO 的推理速度约比基于区域的 BUTD 风格方法快约 10 倍。
- 在所有任务中,VD 尺寸为 2048 时通常能带来最佳性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。