QUICK REVIEW

[论文解读] UNITER: UNiversal Image-TExt Representation Learning

Yen-Chun Chen, Linjie Li|arXiv (Cornell University)|Sep 25, 2019

Multimodal Machine Learning Applications参考文献 62被引用 184

一句话总结

UNITER 通过带条件掩码的统一图文 Transformer 的预训练，以及基于最优传输的词-区域对齐，在六项视觉与语言任务上达到最新效果。

ABSTRACT

Joint image-text embedding is the bedrock for most Vision-and-Language (V+L) tasks, where multimodality inputs are simultaneously processed for joint visual and textual understanding. In this paper, we introduce UNITER, a UNiversal Image-TExt Representation, learned through large-scale pre-training over four image-text datasets (COCO, Visual Genome, Conceptual Captions, and SBU Captions), which can power heterogeneous downstream V+L tasks with joint multimodal embeddings. We design four pre-training tasks: Masked Language Modeling (MLM), Masked Region Modeling (MRM, with three variants), Image-Text Matching (ITM), and Word-Region Alignment (WRA). Different from previous work that applies joint random masking to both modalities, we use conditional masking on pre-training tasks (i.e., masked language/region modeling is conditioned on full observation of image/text). In addition to ITM for global image-text alignment, we also propose WRA via the use of Optimal Transport (OT) to explicitly encourage fine-grained alignment between words and image regions during pre-training. Comprehensive analysis shows that both conditional masking and OT-based WRA contribute to better pre-training. We also conduct a thorough ablation study to find an optimal combination of pre-training tasks. Extensive experiments show that UNITER achieves new state of the art across six V+L tasks (over nine datasets), including Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, and NLVR$^2$. Code is available at https://github.com/ChenRocks/UNITER.

研究动机与目标

建立一个能够跨越多样化的 Vision-and-Language (V+L) 任务泛化的通用图文表示的必要性动机。
开发一个使用四个图文数据集的大规模预训练框架，以学习联合多模态嵌入。
引入针对 MLM/MRM 的条件掩码，以及基于最优传输的新颖词-区域对齐任务，以提升跨模态对齐。
展示所提出的预训练在多个下游 V+L 基准上带来改进，并分析任务/数据集的贡献。

提出的方法

通过 Faster R-CNN 特征及位置对图像区域进行编码；用 WordPieces 和位置嵌入对文本标记进行编码；并使用多层 Transformer 进行融合。
使用四个任务进行预训练：基于图像区域的掩码语言建模（MLM，Masked Language Modeling conditioned on image regions）、条件于文本的掩码区域建模（MRM，Masked Region Modeling conditioned on text）及其三个变体，图像-文本匹配（ITM，Image-Text Matching），以及词-区域对齐（WRA，Word-Region Alignment）。
在预训练时采用条件掩码，即每次仅对一种模态进行掩码，以防止错位对齐。
应用最优传输来学习词嵌入与图像区域嵌入之间的传输计划，并以基于成本的 OT 距离作为 WRA 损失的最小化。
探索三种 MRM 变体：Masked Region Feature Regression (MRFR)、Masked Region Classification (MRC)、以及带 KL 散度的 MRC（MRC-kl）；并评估预训练任务和数据源的组合。

实验结果

研究问题

RQ1一个单一的大规模预训练模型是否能够在一系列 V+L 任务上获得强劲表现，并具备联合多模态嵌入？
RQ2条件掩码和基于 OT 的词-区域对齐是否相较于先前方法能改善跨模态对齐和下游任务表现？
RQ3在最大化对不同 V+L 基准的迁移方面，预训练任务与数据集的最佳组合是什么？
RQ4增加带有领域内外数据的预训练数据量如何影响下游结果？

主要发现

UNITER 在六个 V+L 任务的九个数据集上取得了新的 state-of-the-art（SOTA）结果。
条件掩码和基于 OT 的 WRA 均有助于提升跨模态对齐与性能。
MLM、ITM、MRM 变体的最佳组合（特别是 MRC-kl 和 MRFR）以及 WRA 能带来最佳的 Meta-Sum 改进。
在更大、覆盖面更广的数据（领域内+领域外）上进行预训练进一步提升了性能，但当数据与下游任务分布差异增大时收益趋于减小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。