QUICK REVIEW

[논문 리뷰] OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Peng Wang, Yang An|arXiv (Cornell University)|2022. 02. 07.

Multimodal Machine Learning Applications인용 수 258

한 줄 요약

OFA는 작업 독립적(Task-Agnostic) 및 모달리티 독립적(Modality-Agnostic) Seq2Seq 프레임워크를 제시하고, 다중모달 및 단일모달 사전학습을 위해 아키텍처, 작업 및 모달리티를 통합하여, 공개 코드와 함께 여러 비전-언어 태스크에서 SOTA를 달성합니다.

ABSTRACT

In this work, we pursue a unified paradigm for multimodal pretraining to break the scaffolds of complex task/modality-specific customization. We propose OFA, a Task-Agnostic and Modality-Agnostic framework that supports Task Comprehensiveness. OFA unifies a diverse set of cross-modal and unimodal tasks, including image generation, visual grounding, image captioning, image classification, language modeling, etc., in a simple sequence-to-sequence learning framework. OFA follows the instruction-based learning in both pretraining and finetuning stages, requiring no extra task-specific layers for downstream tasks. In comparison with the recent state-of-the-art vision & language models that rely on extremely large cross-modal datasets, OFA is pretrained on only 20M publicly available image-text pairs. Despite its simplicity and relatively small-scale training data, OFA achieves new SOTAs in a series of cross-modal tasks while attaining highly competitive performances on uni-modal tasks. Our further analysis indicates that OFA can also effectively transfer to unseen tasks and unseen domains. Our code and models are publicly available at https://github.com/OFA-Sys/OFA.

연구 동기 및 목표

단일화된, 작업-독립적이며 모달리티-독립적인 다중모달 사전학습 패러다임을 추구한다.
제로샷 및 교차 도메인 전이를 가능하게 하기 위해 작업 특화 헤드와 어댑터를 제거한다.
비전, 언어, 교차 모달리티에 걸친 광범위한 태스크(생성 및 이해)를 하나의 프레임워크로 통합한다.
비교적 적은 데이터로 교차 모달 및 단일모달 벤치마크에서 경쟁력 있거나 최첨단 성능을 입증한다.

제안 방법

이미지 코드, 영역 토큰, 그리고 BPE 텍스트 토큰을 사용하여 공유된 토큰 기반 어휘로 다양한 모달리티를 표현한다.
모든 태스크에 대해 사전학습, 파인튜닝, 추론을 하나의 아키텍처로 구현하기 위해 Transformer 인코더-디코더를 사용한다.
모든 사전학습 및 다운스트림 태스크를 시퀀스-투-시퀀스 생성으로 구성하고, 작업 가이드를 제공하기 위해 수작업으로 만든 지시를 사용한다.
공개 이미지-텍스트 페어 20M개에서 다중태스크 목적을 포함하여 시각적 그라운딩, 그라운딩된 캡션 작성, 이미지-텍스트 매칭, 이미지 캡션 작성, VQA, 객체 탐지, 이미지 인필링, 그리고 순수 NLP 태스크를 위한 언어 텍스트 인필링을 사전학습한다.
분류형 출력에 대한 효율성과 정확도를 높이기 위해 Trie 기반 디코딩 전략을 도입한다.

실험 결과

연구 질문

RQ1단일 Seq2Seq 모델이 통합된 지시 표현으로 비전과 언어를 아우르는 단일모달 및 다중모달 태스크를 모두 처리할 수 있는가?
RQ2작업 특화 헤드/어댑터를 제거하고 모달리티-독립적 표현을 강제하는 것이 효율적인 제로샷 및 교차 도메인 전이를 가능하게 하는가?
RQ3다양한 비전-언어 태스크를 포함한 다중태스크 사전학습이 VQA, 캡션 작성, 그라운딩 및 단일모달 벤치마크의 다운스트림 성능에 어떤 영향을 미치는가?
RQ4교차모달 및 단일모달 성능 측면에서 더 작은 OFA 모델과 더 큰 OFA 모델의 트레이드오프는 무엇인가?
RQ5OFA가 미세조정 없이 보이지 않는 태스크/도메인으로 얼마나 전이될 수 있는가?

주요 결과

OFA는 VQA test-std에서 82.0, SNLI-VE test 세트에서 91.0/91.2를 달성하여 교차모달 이해 태스크에서 기존 SOTA를 능가한다.
MSCOCO 이미지 캡션 작성(Karpathy 분할)에서 CIDEr 최적화로 CIDEr 154.9를 달성하여 SimVLM Huge와 LEMON 같은 이전 SOTA 방법들을 능가한다.
참조 표현 이해에서 OFA는 강한 이득을 보이며: RefCOCO testA 90.67, RefCOCO+ testA 87.68, RefCOCOg test-u 88.78로 이전 SOTA보다 몇 포인트 높다.
텍스트-이미지 생성에서 OFA는 FID 10.5, CLIPSIM 34.4, IS 31.1를 달성하여 더 작은 샘플링 사이즈로 CogView와 NÜWA를 능가한다.
단일모달 태스크에서 경쟁력 있는 성능: GLUE (SST-2, RTE, MRPC, QQP, QNLI, MNLI) 및 Gigaword 추상 요약은 모달리티별 베이스라인에 근접하거나 이를 상회하는 강한 점수를 달성하며, OFA Large의 ImageNet-1K 파인튜닝 정확도는 85.6%에 도달한다.
제로샷 학습은 GLUE 태스크와 SNLI-VE에서 경쟁력 있는 성능을 보여주고, 교차 도메인의 이미지에서 그라운딩된 QA 및 VQA와 같은 보이지 않는 태스크로의 전이가 주목할 만하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.