[논문 리뷰] Unifying Vision-and-Language Tasks via Text Generation
이 논문은 VL-T5와 VL-BART를 제안하는데, 비전-언어 태스크를 다중모달 텍스트 생성으로 다루는 단일 통합 생성 프레임워크로, 7개 벤치마크에서 태스크-특정 모델과 비슷한 성능을 달성하고 하나의 매개변수 세트로 멀티태스크 학습을 가능하게 한다.
Existing methods for vision-and-language learning typically require designing task-specific architectures and objectives for each task. For example, a multi-label answer classifier for visual question answering, a region scorer for referring expression comprehension, and a language decoder for image captioning, etc. To alleviate these hassles, in this work, we propose a unified framework that learns different tasks in a single architecture with the same language modeling objective, i.e., multimodal conditional text generation, where our models learn to generate labels in text based on the visual and textual inputs. On 7 popular vision-and-language benchmarks, including visual question answering, referring expression comprehension, visual commonsense reasoning, most of which have been previously modeled as discriminative tasks, our generative approach (with a single unified architecture) reaches comparable performance to recent task-specific state-of-the-art vision-and-language models. Moreover, our generative approach shows better generalization ability on questions that have rare answers. Also, we show that our framework allows multi-task learning in a single architecture with a single set of parameters, achieving similar performance to separately optimized single-task models. Our code is publicly available at: https://github.com/j-min/VL-T5
연구 동기 및 목표
- 비전-언어 태스크에 대한 작업-특정 아키텍처를 피하기 위한 통합 프레임워크를 고안한다.
- 시각 입력에 조건부로 텍스트 라벨을 생성하기 위해 사전학습된 언어 모델을 활용한다.
- 언어 모델링 objective를 가진 단일 아키텍처가 다양한 V&L 태스크를 처리할 수 있음을 보인다.
제안 방법
- 이미지 지역 임베딩을 통합하는 멀티모달 인코더로 사전학습된 언어 모델 T5와 BART를 확장한다.
- 이미지를 고정된 지역 특징 세트로 표현하고, 시각적 센티널 토큰을 사용해 지역과 텍스트 라벨을 연결한다.
- 모든 태스크를 텍스트 생성으로 형식화하기 위해 입력에 태스크별 프롬프트를 접두어로 붙인다(예: vqa:, visual grounding:).
- 다중 모달 입력을 주어진 텍스트 라벨을 생성하기 위한 단일 최대가능도(objective)로 학습한다.
- COCO 및 Visual Genome의 9.18M 이미지–텍스트 페어에서 멀티모달 언어 모델링, VQA, 이미지-텍스트 매칭, 시각적 정합, 그리고 근거 있는 캡션 작성 등 여러 프리트레이닝 태스크로 사전학습한다.
- 7개의 다운스트림 태스크에서 평가하여 태스크-특정 판별 모델과 비교하고 멀티태스크 미세조정을 테스트한다.
실험 결과
연구 질문
- RQ1단일 모델을 사용해 텍스트 생성을 목표로 비전-언어 태스크를 효과적으로 통합할 수 있는가?
- RQ2생성형 V&L 모델은 희귀한 답변 질문에 대해 판별 기반과 비교해 더 잘 일반화하는가?
- RQ3단일 아키텍처가 태스크별 헤드 없이 여러 다운스트림 비전-언어 태스크를 잘 수행할 수 있는가?
- RQ4하나의 매개변수 세트로 멀티태스크 미세조정을 하면 개별적으로 훈련된 단일 태스크 모델의 성능에 근접하거나 이를 초과하는가?
주요 결과
- VL-T5 및 VL-BART는 7개의 다운스트림 벤치마크에서 최근의 최첨단 태스크-특정 V&L 모델과 비슷한 성능을 달성한다.
- 생성형 모델은 희귀한 답변을 가진 질문에서 판별 기반보다 일반화가 더 잘 나타난다.
- 하나의 가중치 세트로 구성된 단일 아키텍처가 여러 태스크에서 잘 작동하여 개별적으로 최적화된 단일 태스크 모델과 비슷한 결과를 얻는다.
- 데이터세트별 접두사는 VQA 및 GQA에 필수적이지 않으며, 단일 접두사가 경우에 따라 성능 향상을 가져올 수 있다.
- 이 프레임워크는 개방형 NL 답변을 가능하게 하며 VQA, NLVR2, RefCOCOg, VCR, COCO 캡션 작성, Multi30K 번역 등의 태스크에서 경쟁력 있는 성능을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.