QUICK REVIEW

[论文解读] Unified Vision-Language Pre-Training for Image Captioning and VQA

Luowei Zhou, Hamid Palangi|arXiv (Cornell University)|Sep 24, 2019

Multimodal Machine Learning Applications参考文献 30被引用 74

一句话总结

一个统一的 Vision-Language Pre-training (VLP) 模型使用一个共享的编码器-解码器 Transformer，结合双向和 seq2seq 掩码，对图像-文本对进行预训练，在 COCO、Flickr30k 和 VQA 2.0 的图像描述生成和 VQA 上取得了最先进的结果。

ABSTRACT

This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in that (1) it can be fine-tuned for either vision-language generation (e.g., image captioning) or understanding (e.g., visual question answering) tasks, and (2) it uses a shared multi-layer transformer network for both encoding and decoding, which differs from many existing methods where the encoder and decoder are implemented using separate models. The unified VLP model is pre-trained on a large amount of image-text pairs using the unsupervised learning objectives of two tasks: bidirectional and sequence-to-sequence (seq2seq) masked vision-language prediction. The two tasks differ solely in what context the prediction conditions on. This is controlled by utilizing specific self-attention masks for the shared transformer network. To the best of our knowledge, VLP is the first reported model that achieves state-of-the-art results on both vision-language generation and understanding tasks, as disparate as image captioning and visual question answering, across three challenging benchmark datasets: COCO Captions, Flickr30k Captions, and VQA 2.0. The code and the pre-trained models are available at https://github.com/LuoweiZhou/VLP.

研究动机与目标

动机：需要一个能够同时处理视觉-语言生成和理解任务的单一统一模型（例如图像描述生成和 VQA）的必要性。
提出一个统一的编码器-解码器 Transformer，使编码与解码共享参数。
在大型图像-文本对上进行预训练，包含两个目标（双向和 seq2seq 掩码的视觉语言预测）。
证明该统一 VLP 在多个视觉-语言基准上达到最先进的结果。
显示联合预训练和微调能够加速学习并提升下游性能。

提出的方法

使用一个具有 12 层的单一 Vision-Language Transformer，用于编码和解码。
将图像表示为区域 proposals，并将区域特征、类别概率和几何信息整合到区域嵌入中。
应用两种无监督预训练目标：双向预测和序列到序列（seq2seq）预测，通过带有不同自注意力掩码的掩码语言建模完成。
通过调整自注意力掩码来控制预测的上下文，以实现完整的双向上下文或自回归的 seq2seq 上下文。
对下游任务进行微调：通过 seq2seq 生成进行图像描述生成，对 VQA 进行固定答案词汇表上的多标签分类。
在 Conceptual Captions 上进行预训练，并在 COCO Captions、Flickr30k Captions 和 VQA 2.0 上进行下游任务评估。
与先前的 vision-language 预训练工作进行比较，并消融预训练目标、初始化和输入设计的影响。

实验结果

研究问题

RQ1一个具有共享参数的单一统一的编码器-解码器模型，是否能够有效支持视觉-语言生成与理解任务？
RQ2当双向和 seq2seq 的视觉-语言预训练目标联合训练时，是否在图像描述和 VQA 上都带来改进？
RQ3在大型图像-文本数据上的预训练是否比仅语言预训练或无预训练更能加速下游学习并提升性能？
RQ4设计选择（区域输入、前置任务和模型初始化）对下游视觉-语言任务有何影响？

主要发现

该统一的 VLP 模型在 COCO Captions、Flickr30k 以及 VQA 2.0 上的图像描述和 VQA 任务中达到最先进的结果。
以视觉-语言目标进行预训练显著加速下游微调并提升任务表现，相较于未预训练或仅语言预训练的基线。
联合训练双向与 seq2seq 目标能够产生对生成（描述）和理解（VQA）任务都具有良好迁移的稳健表示。
从 UniLM 或基于 BERT 的语言模型初始化并结合区域级输入，提升了描述和 VQA 的性能。
单一共享的基于 Transformer 的架构可以减少对特定任务模型的需求，同时保持竞争力的下游精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。