Skip to main content
QUICK REVIEW

[논문 리뷰] Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

Jiasen Lu, Christopher M. Clark|arXiv (Cornell University)|2022. 06. 17.
Multimodal Machine Learning Applications인용 수 110
한 줄 요약

요약: Unified-IO는 모든 출력/입력을 이산 토큰 시퀀스로 변환하여 비전, 언어, 비전-언어 작업의 95개 데이터셋을 하나의 트랜스포머 기반 인코더-디코더로 통합하고, 작업별 헤드 없이 GRIT 7-태스크 커버리지에 버금가는 최첨단 성능을 달성합니다.

ABSTRACT

We propose Unified-IO, a model that performs a large variety of AI tasks spanning classical computer vision tasks, including pose estimation, object detection, depth estimation and image generation, vision-and-language tasks such as region captioning and referring expression, to natural language processing tasks such as question answering and paraphrasing. Developing a single unified model for such a large variety of tasks poses unique challenges due to the heterogeneous inputs and outputs pertaining to each task, including RGB images, per-pixel maps, binary masks, bounding boxes, and language. We achieve this unification by homogenizing every supported input and output into a sequence of discrete vocabulary tokens. This common representation across all tasks allows us to train a single transformer-based architecture, jointly on over 90 diverse datasets in the vision and language fields. Unified-IO is the first model capable of performing all 7 tasks on the GRIT benchmark and produces strong results across 16 diverse benchmarks like NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, and SciTail, with no task-specific fine-tuning. Code and demos for Unified-IO are available at: https://unified-io.allenai.org.

연구 동기 및 목표

  • 비전, 언어, 다중모달 작업 전반에 걸친 단일 통합 모델 구축의 동기를 부여하여 폭넓은 기능과 이전 가능성을 가능하게 한다.
  • 단일 트랜스포머가 바운더리 없이 다양한 출력을 처리할 수 있도록 토큰 수준의 모달리티-중립 표현을 제안한다(예: 상자, 마스크, 깊이 맵, 텍스트 등).
  • 95개 데이터셋에서의 공동 다태스크 학습이 작업별 미세 조정 없이 7개 GRIT 태스크와 16개 벤치마크에서 강력한 성능을 낼 수 있음을 보여준다.
  • 작업 그룹이 학습 및 개념 간 전이 학습에 미치는 영향을 이해하기 위한 절제(ablations) 분석을 제공한다.

제안 방법

  • 모든 입력 및 출력을 고유 어휘의 이산 토큰으로 표현한다(텍스트 토큰, 1000 위치 토큰, 16384 비전 토큰).
  • dense 출력(이미지, 깊이, 세분화)을 VQ-GAN 토큰으로 인코딩하고, 희소 출력(상자, 관절)을 좌표 토큰으로 인코딩하며, 언어는 SentencePiece와 프롬프트로 인코딩한다.
  • 이미지를 처리하기 위해 2D 상대 임베딩 및 절대 위치 임베딩이 있는 T5에 준하는 인코더-디코더 트랜스포머를 사용한다.
  • 비전, 언어, V&L 데이터의 혼합에서 텍스트 범위 디노이징 및 마스크드 이미지 디노이징으로 사전 학습한다.
  • 8개 그룹의 22개 작업에서 95개 데이터셋(62개 출처)을 균형 표본으로 공동 학습한다.
  • 작업별 헤드가 없으며, 사전 학습과 대규모 다태스크 학습의 두 단계로 학습한다; GRIT 및 16개 벤치마크로 평가한다.

실험 결과

연구 질문

  • RQ1하나의 Seq2Seq 모델이 작업별 헤드 없이 광범위한 비전, 언어, 다중모달 작업을 학습할 수 있는가?
  • RQ2대규모 다태스크 학습 모델이 새로운 개념과 보지 않은 데이터셋에 얼마나 일반화되는가?
  • RQ3작업 그룹의 포함 여부가 전반적인 성능과 전달에 어떤 영향을 미치는가?
  • RQ4프롬프트 설계가 지시 표현에 대한 성능에 어떤 영향을 미치는가?

주요 결과

  • Unified-IO는 GRIT 7-태스크 벤치마크에서 평균 점수 64.3으로 최상위에 도달하며 기존 SOTA를 크게 앞지른다.
  • GRIT에서 XL 변형은 로컬라이제이션, 세분화 및 기타 작업에서 기존 모델을 능가하며 강한 작업 간 전이를 보인다.
  • 새로운 개념으로의 일반화에서 Unified-IO는 동일 컨셉 분할과 새로운 컨셋 사이의 저하가 다른 모델에 비해 더 작다.
  • 추가 16개 벤치마크(NYUv2, ImageNet, VQA2.0, OK-VQA, VizWiz, Swig, BoolQ, SciTail 등)에서 Task-specific 미세 조정 없이도 경쟁력 있거나 강한 성능을 보인다.
  • ablation 연구는 작업 그룹을 제거해도 대부분의 작업에서 큰 성능 하락이 없음을 시사하며, 단일화된 접근의 강건성을 강조한다.
  • 프롬프트 일반화 사례 연구는 지시 표현 프롬프트를 다양한 효과로 재구성할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.