[论文解读] UNITER: UNiversal Image-TExt Representation Learning
UNITER 通过带条件掩码的统一图文 Transformer 的预训练,以及基于最优传输的词-区域对齐,在六项视觉与语言任务上达到最新效果。
Joint image-text embedding is the bedrock for most Vision-and-Language (V+L) tasks, where multimodality inputs are simultaneously processed for joint visual and textual understanding. In this paper, we introduce UNITER, a UNiversal Image-TExt Representation, learned through large-scale pre-training over four image-text datasets (COCO, Visual Genome, Conceptual Captions, and SBU Captions), which can power heterogeneous downstream V+L tasks with joint multimodal embeddings. We design four pre-training tasks: Masked Language Modeling (MLM), Masked Region Modeling (MRM, with three variants), Image-Text Matching (ITM), and Word-Region Alignment (WRA). Different from previous work that applies joint random masking to both modalities, we use conditional masking on pre-training tasks (i.e., masked language/region modeling is conditioned on full observation of image/text). In addition to ITM for global image-text alignment, we also propose WRA via the use of Optimal Transport (OT) to explicitly encourage fine-grained alignment between words and image regions during pre-training. Comprehensive analysis shows that both conditional masking and OT-based WRA contribute to better pre-training. We also conduct a thorough ablation study to find an optimal combination of pre-training tasks. Extensive experiments show that UNITER achieves new state of the art across six V+L tasks (over nine datasets), including Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, and NLVR$^2$. Code is available at https://github.com/ChenRocks/UNITER.
研究动机与目标
- 建立一个能够跨越多样化的 Vision-and-Language (V+L) 任务泛化的通用图文表示的必要性动机。
- 开发一个使用四个图文数据集的大规模预训练框架,以学习联合多模态嵌入。
- 引入针对 MLM/MRM 的条件掩码,以及基于最优传输的新颖词-区域对齐任务,以提升跨模态对齐。
- 展示所提出的预训练在多个下游 V+L 基准上带来改进,并分析任务/数据集的贡献。
提出的方法
- 通过 Faster R-CNN 特征及位置对图像区域进行编码;用 WordPieces 和位置嵌入对文本标记进行编码;并使用多层 Transformer 进行融合。
- 使用四个任务进行预训练:基于图像区域的掩码语言建模(MLM,Masked Language Modeling conditioned on image regions)、条件于文本的掩码区域建模(MRM,Masked Region Modeling conditioned on text)及其三个变体,图像-文本匹配(ITM,Image-Text Matching),以及词-区域对齐(WRA,Word-Region Alignment)。
- 在预训练时采用条件掩码,即每次仅对一种模态进行掩码,以防止错位对齐。
- 应用最优传输来学习词嵌入与图像区域嵌入之间的传输计划,并以基于成本的 OT 距离作为 WRA 损失的最小化。
- 探索三种 MRM 变体:Masked Region Feature Regression (MRFR)、Masked Region Classification (MRC)、以及带 KL 散度的 MRC(MRC-kl);并评估预训练任务和数据源的组合。
实验结果
研究问题
- RQ1一个单一的大规模预训练模型是否能够在一系列 V+L 任务上获得强劲表现,并具备联合多模态嵌入?
- RQ2条件掩码和基于 OT 的词-区域对齐是否相较于先前方法能改善跨模态对齐和下游任务表现?
- RQ3在最大化对不同 V+L 基准的迁移方面,预训练任务与数据集的最佳组合是什么?
- RQ4增加带有领域内外数据的预训练数据量如何影响下游结果?
主要发现
- UNITER 在六个 V+L 任务的九个数据集上取得了新的 state-of-the-art(SOTA)结果。
- 条件掩码和基于 OT 的 WRA 均有助于提升跨模态对齐与性能。
- MLM、ITM、MRM 变体的最佳组合(特别是 MRC-kl 和 MRFR)以及 WRA 能带来最佳的 Meta-Sum 改进。
- 在更大、覆盖面更广的数据(领域内+领域外)上进行预训练进一步提升了性能,但当数据与下游任务分布差异增大时收益趋于减小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。