QUICK REVIEW

[논문 리뷰] Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

Jiasen Lu, Christopher M. Clark|arXiv (Cornell University)|2022. 06. 17.

Multimodal Machine Learning Applications인용 수 110

한 줄 요약

요약: Unified-IO는 모든 출력/입력을 이산 토큰 시퀀스로 변환하여 비전, 언어, 비전-언어 작업의 95개 데이터셋을 하나의 트랜스포머 기반 인코더-디코더로 통합하고, 작업별 헤드 없이 GRIT 7-태스크 커버리지에 버금가는 최첨단 성능을 달성합니다.

ABSTRACT

We propose Unified-IO, a model that performs a large variety of AI tasks spanning classical computer vision tasks, including pose estimation, object detection, depth estimation and image generation, vision-and-language tasks such as region captioning and referring expression, to natural language processing tasks such as question answering and paraphrasing. Developing a single unified model for such a large variety of tasks poses unique challenges due to the heterogeneous inputs and outputs pertaining to each task, including RGB images, per-pixel maps, binary masks, bounding boxes, and language. We achieve this unification by homogenizing every supported input and output into a sequence of discrete vocabulary tokens. This common representation across all tasks allows us to train a single transformer-based architecture, jointly on over 90 diverse datasets in the vision and language fields. Unified-IO is the first model capable of performing all 7 tasks on the GRIT benchmark and produces strong results across 16 diverse benchmarks like NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, and SciTail, with no task-specific fine-tuning. Code and demos for Unified-IO are available at: https://unified-io.allenai.org.

연구 동기 및 목표

비전, 언어, 다중모달 작업 전반에 걸친 단일 통합 모델 구축의 동기를 부여하여 폭넓은 기능과 이전 가능성을 가능하게 한다.
단일 트랜스포머가 바운더리 없이 다양한 출력을 처리할 수 있도록 토큰 수준의 모달리티-중립 표현을 제안한다(예: 상자, 마스크, 깊이 맵, 텍스트 등).
95개 데이터셋에서의 공동 다태스크 학습이 작업별 미세 조정 없이 7개 GRIT 태스크와 16개 벤치마크에서 강력한 성능을 낼 수 있음을 보여준다.
작업 그룹이 학습 및 개념 간 전이 학습에 미치는 영향을 이해하기 위한 절제(ablations) 분석을 제공한다.

제안 방법

모든 입력 및 출력을 고유 어휘의 이산 토큰으로 표현한다(텍스트 토큰, 1000 위치 토큰, 16384 비전 토큰).
dense 출력(이미지, 깊이, 세분화)을 VQ-GAN 토큰으로 인코딩하고, 희소 출력(상자, 관절)을 좌표 토큰으로 인코딩하며, 언어는 SentencePiece와 프롬프트로 인코딩한다.
이미지를 처리하기 위해 2D 상대 임베딩 및 절대 위치 임베딩이 있는 T5에 준하는 인코더-디코더 트랜스포머를 사용한다.
비전, 언어, V&L 데이터의 혼합에서 텍스트 범위 디노이징 및 마스크드 이미지 디노이징으로 사전 학습한다.
8개 그룹의 22개 작업에서 95개 데이터셋(62개 출처)을 균형 표본으로 공동 학습한다.
작업별 헤드가 없으며, 사전 학습과 대규모 다태스크 학습의 두 단계로 학습한다; GRIT 및 16개 벤치마크로 평가한다.

실험 결과

연구 질문

RQ1하나의 Seq2Seq 모델이 작업별 헤드 없이 광범위한 비전, 언어, 다중모달 작업을 학습할 수 있는가?
RQ2대규모 다태스크 학습 모델이 새로운 개념과 보지 않은 데이터셋에 얼마나 일반화되는가?
RQ3작업 그룹의 포함 여부가 전반적인 성능과 전달에 어떤 영향을 미치는가?
RQ4프롬프트 설계가 지시 표현에 대한 성능에 어떤 영향을 미치는가?

주요 결과

Unified-IO는 GRIT 7-태스크 벤치마크에서 평균 점수 64.3으로 최상위에 도달하며 기존 SOTA를 크게 앞지른다.
GRIT에서 XL 변형은 로컬라이제이션, 세분화 및 기타 작업에서 기존 모델을 능가하며 강한 작업 간 전이를 보인다.
새로운 개념으로의 일반화에서 Unified-IO는 동일 컨셉 분할과 새로운 컨셋 사이의 저하가 다른 모델에 비해 더 작다.
추가 16개 벤치마크(NYUv2, ImageNet, VQA2.0, OK-VQA, VizWiz, Swig, BoolQ, SciTail 등)에서 Task-specific 미세 조정 없이도 경쟁력 있거나 강한 성능을 보인다.
ablation 연구는 작업 그룹을 제거해도 대부분의 작업에서 큰 성능 하락이 없음을 시사하며, 단일화된 접근의 강건성을 강조한다.
프롬프트 일반화 사례 연구는 지시 표현 프롬프트를 다양한 효과로 재구성할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.