Skip to main content
QUICK REVIEW

[论文解读] Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

Jiasen Lu, Christopher M. Clark|arXiv (Cornell University)|Jun 17, 2022
Multimodal Machine Learning Applications被引用 110
一句话总结

统一 IO 提供一个单一的基于 Transformer 的编码器-解码器,通过将所有输出/输入转换为离散令牌序列,将 vision、language、vision-language 任务的 95 个数据集统一起来,在实现类似 GRIT 的 7 任务覆盖的状态-of-the-art,而无需任务特定头。

ABSTRACT

We propose Unified-IO, a model that performs a large variety of AI tasks spanning classical computer vision tasks, including pose estimation, object detection, depth estimation and image generation, vision-and-language tasks such as region captioning and referring expression, to natural language processing tasks such as question answering and paraphrasing. Developing a single unified model for such a large variety of tasks poses unique challenges due to the heterogeneous inputs and outputs pertaining to each task, including RGB images, per-pixel maps, binary masks, bounding boxes, and language. We achieve this unification by homogenizing every supported input and output into a sequence of discrete vocabulary tokens. This common representation across all tasks allows us to train a single transformer-based architecture, jointly on over 90 diverse datasets in the vision and language fields. Unified-IO is the first model capable of performing all 7 tasks on the GRIT benchmark and produces strong results across 16 diverse benchmarks like NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, and SciTail, with no task-specific fine-tuning. Code and demos for Unified-IO are available at: https://unified-io.allenai.org.

研究动机与目标

  • 激励建立一个跨视觉、语言和多模态任务的单一统一模型,以实现广泛能力和迁移。
  • 提出一个 token 级、模态无关的表示,使单个 Transformer 能处理多种输出,如框、掩码、深度图和文本。
  • 证明在 95 个数据集上的联合多任务训练可以在 7 个 GRIT 任务和 16 个基准测试上实现强劲表现,无需任务特定微调。
  • 展示消融实验,以理解任务组如何影响学习与概念间迁移。

提出的方法

  • 将所有输入和输出表示为统一词汇表中的离散令牌(文本令牌、1000 个定位令牌、16384 个视觉令牌)。
  • 将密集输出(图像、深度、分割)编码为 VQ-GAN 令牌;将稀疏输出(框、关节)编码为坐标令牌;使用 SentencePiece 和提示语对语言进行编码。
  • 使用类似于 T5 的编码器-解码器 Transformer,具备 2D 相对嵌入与绝对位置嵴嵌入以处理图像。
  • 在混合的视觉、语言和 V&L 数据上,进行文本片段去噪和掩码图像去噪的预训练。
  • 在 95 个数据集(62 个来源)上联合训练一个模型,跨 8 个组和 22 个任务,在组内实现平衡采样。
  • 没有任务特定头部;分两阶段训练:预训练和大规模多任务训练;在 GRIT 和 16 个其他基准上评估。)

实验结果

研究问题

  • RQ1单一的 Seq2Seq 模型是否可以在没有任务特定头的情况下学习广泛的视觉、语言和多模态任务?
  • RQ2在进行大规模多任务训练的模型上,它对新概念和未见数据集的泛化能力有多强?
  • RQ3包含或排除任务组对总体性能和迁移的影响是什么?
  • RQ4提示设计如何影响对指称表达的性能?

主要发现

  • Unified-IO 在 GRIT 七任务基准上达到最高平均分 64.3,明显超越先前的 SOTA。
  • 在 GRIT 上,XL 变体在定位、分割等任务上超越先前模型,且跨任务迁移强。
  • 对新概念的泛化显示 Unified-IO 在同一与新概念划分之间的降幅小于其他模型。
  • 在另外 16 个基准测试(NYUv2、ImageNet、VQA2.0、OK-VQA、VizWiz、Swig、BoolQ、SciTail 等)上,Unified-IO 展示了有竞争力或强劲的性能,无需任务特定微调。
  • 消融研究表明移除任务组并不会对大多数任务造成剧烈伤害,突显统一方法的鲁棒性。
  • 提示泛化的案例研究表明指称表达的提示可以以不同的效果进行改写。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。