Skip to main content
QUICK REVIEW

[논문 리뷰] OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Peng Wang, Yang An|arXiv (Cornell University)|2022. 02. 07.
Multimodal Machine Learning Applications인용 수 258
한 줄 요약

OFA는 작업 독립적(Task-Agnostic) 및 모달리티 독립적(Modality-Agnostic) Seq2Seq 프레임워크를 제시하고, 다중모달 및 단일모달 사전학습을 위해 아키텍처, 작업 및 모달리티를 통합하여, 공개 코드와 함께 여러 비전-언어 태스크에서 SOTA를 달성합니다.

ABSTRACT

In this work, we pursue a unified paradigm for multimodal pretraining to break the scaffolds of complex task/modality-specific customization. We propose OFA, a Task-Agnostic and Modality-Agnostic framework that supports Task Comprehensiveness. OFA unifies a diverse set of cross-modal and unimodal tasks, including image generation, visual grounding, image captioning, image classification, language modeling, etc., in a simple sequence-to-sequence learning framework. OFA follows the instruction-based learning in both pretraining and finetuning stages, requiring no extra task-specific layers for downstream tasks. In comparison with the recent state-of-the-art vision & language models that rely on extremely large cross-modal datasets, OFA is pretrained on only 20M publicly available image-text pairs. Despite its simplicity and relatively small-scale training data, OFA achieves new SOTAs in a series of cross-modal tasks while attaining highly competitive performances on uni-modal tasks. Our further analysis indicates that OFA can also effectively transfer to unseen tasks and unseen domains. Our code and models are publicly available at https://github.com/OFA-Sys/OFA.

연구 동기 및 목표

  • 단일화된, 작업-독립적이며 모달리티-독립적인 다중모달 사전학습 패러다임을 추구한다.
  • 제로샷 및 교차 도메인 전이를 가능하게 하기 위해 작업 특화 헤드와 어댑터를 제거한다.
  • 비전, 언어, 교차 모달리티에 걸친 광범위한 태스크(생성 및 이해)를 하나의 프레임워크로 통합한다.
  • 비교적 적은 데이터로 교차 모달 및 단일모달 벤치마크에서 경쟁력 있거나 최첨단 성능을 입증한다.

제안 방법

  • 이미지 코드, 영역 토큰, 그리고 BPE 텍스트 토큰을 사용하여 공유된 토큰 기반 어휘로 다양한 모달리티를 표현한다.
  • 모든 태스크에 대해 사전학습, 파인튜닝, 추론을 하나의 아키텍처로 구현하기 위해 Transformer 인코더-디코더를 사용한다.
  • 모든 사전학습 및 다운스트림 태스크를 시퀀스-투-시퀀스 생성으로 구성하고, 작업 가이드를 제공하기 위해 수작업으로 만든 지시를 사용한다.
  • 공개 이미지-텍스트 페어 20M개에서 다중태스크 목적을 포함하여 시각적 그라운딩, 그라운딩된 캡션 작성, 이미지-텍스트 매칭, 이미지 캡션 작성, VQA, 객체 탐지, 이미지 인필링, 그리고 순수 NLP 태스크를 위한 언어 텍스트 인필링을 사전학습한다.
  • 분류형 출력에 대한 효율성과 정확도를 높이기 위해 Trie 기반 디코딩 전략을 도입한다.

실험 결과

연구 질문

  • RQ1단일 Seq2Seq 모델이 통합된 지시 표현으로 비전과 언어를 아우르는 단일모달 및 다중모달 태스크를 모두 처리할 수 있는가?
  • RQ2작업 특화 헤드/어댑터를 제거하고 모달리티-독립적 표현을 강제하는 것이 효율적인 제로샷 및 교차 도메인 전이를 가능하게 하는가?
  • RQ3다양한 비전-언어 태스크를 포함한 다중태스크 사전학습이 VQA, 캡션 작성, 그라운딩 및 단일모달 벤치마크의 다운스트림 성능에 어떤 영향을 미치는가?
  • RQ4교차모달 및 단일모달 성능 측면에서 더 작은 OFA 모델과 더 큰 OFA 모델의 트레이드오프는 무엇인가?
  • RQ5OFA가 미세조정 없이 보이지 않는 태스크/도메인으로 얼마나 전이될 수 있는가?

주요 결과

  • OFA는 VQA test-std에서 82.0, SNLI-VE test 세트에서 91.0/91.2를 달성하여 교차모달 이해 태스크에서 기존 SOTA를 능가한다.
  • MSCOCO 이미지 캡션 작성(Karpathy 분할)에서 CIDEr 최적화로 CIDEr 154.9를 달성하여 SimVLM Huge와 LEMON 같은 이전 SOTA 방법들을 능가한다.
  • 참조 표현 이해에서 OFA는 강한 이득을 보이며: RefCOCO testA 90.67, RefCOCO+ testA 87.68, RefCOCOg test-u 88.78로 이전 SOTA보다 몇 포인트 높다.
  • 텍스트-이미지 생성에서 OFA는 FID 10.5, CLIPSIM 34.4, IS 31.1를 달성하여 더 작은 샘플링 사이즈로 CogView와 NÜWA를 능가한다.
  • 단일모달 태스크에서 경쟁력 있는 성능: GLUE (SST-2, RTE, MRPC, QQP, QNLI, MNLI) 및 Gigaword 추상 요약은 모달리티별 베이스라인에 근접하거나 이를 상회하는 강한 점수를 달성하며, OFA Large의 ImageNet-1K 파인튜닝 정확도는 85.6%에 도달한다.
  • 제로샷 학습은 GLUE 태스크와 SNLI-VE에서 경쟁력 있는 성능을 보여주고, 교차 도메인의 이미지에서 그라운딩된 QA 및 VQA와 같은 보이지 않는 태스크로의 전이가 주목할 만하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.