Skip to main content
QUICK REVIEW

[论文解读] Unifying Vision-and-Language Tasks via Text Generation

Jaemin Cho, Jie Lei|arXiv (Cornell University)|Feb 4, 2021
Multimodal Machine Learning Applications参考文献 67被引用 64
一句话总结

本论文提出VL-T5和VL-BART,一个统一的生成框架,将视觉-语言任务视为多模态文本生成,在7个基准数据集上达到与任务特定模型相当的结果,并实现单一参数集的多任务学习。

ABSTRACT

Existing methods for vision-and-language learning typically require designing task-specific architectures and objectives for each task. For example, a multi-label answer classifier for visual question answering, a region scorer for referring expression comprehension, and a language decoder for image captioning, etc. To alleviate these hassles, in this work, we propose a unified framework that learns different tasks in a single architecture with the same language modeling objective, i.e., multimodal conditional text generation, where our models learn to generate labels in text based on the visual and textual inputs. On 7 popular vision-and-language benchmarks, including visual question answering, referring expression comprehension, visual commonsense reasoning, most of which have been previously modeled as discriminative tasks, our generative approach (with a single unified architecture) reaches comparable performance to recent task-specific state-of-the-art vision-and-language models. Moreover, our generative approach shows better generalization ability on questions that have rare answers. Also, we show that our framework allows multi-task learning in a single architecture with a single set of parameters, achieving similar performance to separately optimized single-task models. Our code is publicly available at: https://github.com/j-min/VL-T5

研究动机与目标

  • 提出一个统一框架,以避免为视觉与语言任务设计特定任务的架构。
  • 利用预训练语言模型在视觉输入条件下生成文本标签。
  • 展示一个以语言建模目标为目标的单一架构能够处理多样化的V&L任务。

提出的方法

  • 用包含图像区域嵌入的多模态编码器扩展预训练语言模型T5和BART。
  • 将图像表示为固定集合的区域特征,并使用视觉哨兵标记将区域链接到文本标签。
  • 通过在输入前缀上任务特定提示(如 vqa:, visual grounding:)将所有任务表述为文本生成。
  • 使用单一最大似然目标在多模态输入下生成标签文本进行训练。
  • 在COCO和Visual Genome的9.18M图像–文本对上进行预训练,包含多种预训练任务,包括多模态语言建模、VQA、图像-文本匹配、视觉定位和有据引导的字幕生成。
  • 在7个下游任务上进行评估,以与任务特定的判别模型进行比较并测试多任务微调。

实验结果

研究问题

  • RQ1是否可以在单一模型下,把视觉与语言任务有效统一为文本生成目标?
  • RQ2相较于判别基线,生成式V&L模型对罕见答案的问题是否具有更好的泛化能力?
  • RQ3在没有任务特定头的情况下,单一架构是否能够在多种下游视觉与语言任务上都表现良好?
  • RQ4使用一组参数进行多任务微调是否接近或达到单独训练的单任务模型的性能?

主要发现

  • VL-T5 和 VL-BART 在7个下游基准上实现了与最近的最先进的任务特定V&L模型相当的性能。
  • 生成模型在对罕见答案的问题上显示出比判别基线更好的泛化能力。
  • 一个拥有一组权重的单一架构可以在多项任务上表现良好,达到与单独优化的单任务模型相近的结果。
  • 数据集特定前缀对于VQA和GQA并非严格必要,且在某些情况下单一前缀也能带来性能提升。
  • 该框架支持开放式自然语言回答,并在VQA、NLVR2、RefCOCOg、VCR、COCO字幕生成和Multi30K翻译等任务中保持竞争力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。