QUICK REVIEW

[论文解读] UFO: A UniFied TransfOrmer for Vision-Language Representation Learning

Jianfeng Wang, Xiaowei Hu|arXiv (Cornell University)|Nov 19, 2021

Multimodal Machine Learning Applications参考文献 48被引用 28

一句话总结

UFO 引入一个单一的统一变换器，可以作为图像编码器、文本编码器和用于视觉-语言预训练的多模态融合编码器，在 VQA、COCO 标注和 nocaps 上取得强劲结果，同时在图像-文本检索方面保持竞争力且不需要重模态特定组件。

ABSTRACT

In this paper, we propose a single UniFied transfOrmer (UFO), which is capable of processing either unimodal inputs (e.g., image or language) or multimodal inputs (e.g., the concatenation of the image and the question), for vision-language (VL) representation learning. Existing approaches typically design an individual network for each modality and/or a specific fusion network for multimodal tasks. To simplify the network architecture, we use a single transformer network and enforce multi-task learning during VL pre-training, which includes the image-text contrastive loss, image-text matching loss, and masked language modeling loss based on the bidirectional and the seq2seq attention mask. The same transformer network is used as the image encoder, the text encoder, or the fusion network in different pre-training tasks. Empirically, we observe less conflict among different tasks and achieve new state of the arts on visual question answering, COCO image captioning (cross-entropy optimization) and nocaps (in SPICE). On other downstream tasks, e.g., image-text retrieval, we also achieve competitive performance.

研究动机与目标

通过在单一变换器上处理单模态与多模态视觉-语言任务，来提升动机并降低架构复杂度。
使用多任务（ITC、ITM、MLM、S-MLM）对统一模型进行预训练，以同时支持单模态和多模态能力。
展示带动量教师的多任务预训练在 VQA、图像描述和 nocaps 等下游 VL 任务上具有竞争力甚至达到最先进水平，同时在检索任务上保持高效。

提出的方法

采用单一变换器骨干作为图像编码器、文本编码器和融合网络，通过将图像投影为补丁、文本投影为嵌入来形成共享的 token 序列。
使用图像-文本对比学习损失（ITC）来学习图像和文本的单模态表征。
使用图像-文本匹配损失（ITM）以及带双向和序列到序列注意力掩码的掩码语言模型损失（MLM）用于多模态融合任务。
引入 momentum 教师，通过蒸馏损失对 ITC/MLM/S-MLM 任务进行引导预训练。
在每次迭代中随机抽取一个损失进行训练，以稳定多任务优化并减少任务之间的冲突。

实验结果

研究问题

RQ1一个单一的、共享的变换器架构是否能够有效处理单模态的图像/文本编码以及用于视觉语言任务的多模态融合？
RQ2多任务视觉-语言预训练损失（ITC、ITM、MLM、S-MLM）是否相互补充，动量蒸馏是否提升下游 VL 任务的表现？
RQ3是否可以在不依赖于重量级、模态专用的融合网络或检测器支撑的图像特征的情况下，在 VQA、COCO 标注和 nocaps 上达到最先进的结果？

主要发现

单一的 UniFied transformer (UFO) 可以在同一体系中同时作为图像编码器、文本编码器和多模态融合编码器工作。
ITC 使图像和文本实现单模态理解，而 ITM 与 MLM/S-MLM 赋予多模态融合和语言生成的能力。
使用 momentum 教师并在每次迭代中随机选择一个预训练损失可提升下游 VL 任务的性能与训练稳定性。
UFO 在 VQA、COCO 图像描述（CIDEr）和 nocaps（SPICE）上取得强劲结果，在与大型预训练数据相比时，在图像-文本检索任务上也具有竞争力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。