[论文解读] Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
Unicoder-VL 预训练一个多层 Transformer,学习联合的视觉-语言表示,使用三种跨模态目标,在微调后实现强的图像文本检索和在视觉常识推理方面具备竞争力。
We propose Unicoder-VL, a universal encoder that aims to learn joint representations of vision and language in a pre-training manner. Borrow ideas from cross-lingual pre-trained models, such as XLM and Unicoder, both visual and linguistic contents are fed into a multi-layer Transformer for the cross-modal pre-training, where three pre-trained tasks are employed, including Masked Language Modeling (MLM), Masked Object Classification (MOC) and Visual-linguistic Matching (VLM). The first two tasks learn context-aware representations for input tokens based on linguistic and visual contents jointly. The last task tries to predict whether an image and a text describe each other. After pretraining on large-scale image-caption pairs, we transfer Unicoder-VL to caption-based image-text retrieval and visual commonsense reasoning, with just one additional output layer. We achieve state-of-the-art or comparable results on both two tasks and show the powerful ability of the cross-modal pre-training.
研究动机与目标
- 提出一个能够处理带有视觉上下文的长语言序列的通用跨模态编码器。
- 利用大规模图像-字幕数据,通过跨模态预训练学习联合表示。
- 设计并评估三种跨模态预训练任务,以对齐视觉与语言模态。
提出的方法
- 使用从 BERT 初始化的多层 Transformer,将视觉区域特征与语言标记融合作用。
- 注入图像区域嵌入和位置信息,与文本标记联合编码。
- 用三种目标进行预训练: Masked Language Modeling (MLM)、Masked Object Classification (MOC)、Visual-linguistic Matching (VLM)。
- MLM 使用周围文本和所有图像区域来预测被屏蔽的词。
- MOC 为被屏蔽的视觉区域预测对象类别。
- VLM 训练一个二元预测器,判断一对图像—文本是否相互描述。
实验结果
研究问题
- RQ1一个基于 Transformer 的单一编码器能否从图像-字幕数据中学习出稳健的跨模态表示?
- RQ2跨模态预训练目标是否提升下游的图像-文本检索和视觉常识推理?
- RQ3模型规模和预训练数据规模如何影响跨模态迁移性能?
主要发现
- 在对 MSCOCO 和 Flickr30K 微调后,预训练的 Unicoder-VL 在图像文本检索基准上达到最新结果。
- Unicoder-VL 的零样本检索显示出对跨模态的通用对齐能力,无需任务特定微调。
- Unicoder-VL 在 Visual Commonsense Reasoning (VCR) 上取得具有竞争力的结果,表明跨模态预训练对认知任务有益。
- 模型性能随着 Transformer 深度增加和预训练数据增多而提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。