QUICK REVIEW

[논문 리뷰] Unifying Vision-and-Language Tasks via Text Generation

Jaemin Cho, Jie Lei|arXiv (Cornell University)|2021. 02. 04.

Multimodal Machine Learning Applications참고 문헌 67인용 수 64

한 줄 요약

이 논문은 VL-T5와 VL-BART를 제안하는데, 비전-언어 태스크를 다중모달 텍스트 생성으로 다루는 단일 통합 생성 프레임워크로, 7개 벤치마크에서 태스크-특정 모델과 비슷한 성능을 달성하고 하나의 매개변수 세트로 멀티태스크 학습을 가능하게 한다.

ABSTRACT

Existing methods for vision-and-language learning typically require designing task-specific architectures and objectives for each task. For example, a multi-label answer classifier for visual question answering, a region scorer for referring expression comprehension, and a language decoder for image captioning, etc. To alleviate these hassles, in this work, we propose a unified framework that learns different tasks in a single architecture with the same language modeling objective, i.e., multimodal conditional text generation, where our models learn to generate labels in text based on the visual and textual inputs. On 7 popular vision-and-language benchmarks, including visual question answering, referring expression comprehension, visual commonsense reasoning, most of which have been previously modeled as discriminative tasks, our generative approach (with a single unified architecture) reaches comparable performance to recent task-specific state-of-the-art vision-and-language models. Moreover, our generative approach shows better generalization ability on questions that have rare answers. Also, we show that our framework allows multi-task learning in a single architecture with a single set of parameters, achieving similar performance to separately optimized single-task models. Our code is publicly available at: https://github.com/j-min/VL-T5

연구 동기 및 목표

비전-언어 태스크에 대한 작업-특정 아키텍처를 피하기 위한 통합 프레임워크를 고안한다.
시각 입력에 조건부로 텍스트 라벨을 생성하기 위해 사전학습된 언어 모델을 활용한다.
언어 모델링 objective를 가진 단일 아키텍처가 다양한 V&L 태스크를 처리할 수 있음을 보인다.

제안 방법

이미지 지역 임베딩을 통합하는 멀티모달 인코더로 사전학습된 언어 모델 T5와 BART를 확장한다.
이미지를 고정된 지역 특징 세트로 표현하고, 시각적 센티널 토큰을 사용해 지역과 텍스트 라벨을 연결한다.
모든 태스크를 텍스트 생성으로 형식화하기 위해 입력에 태스크별 프롬프트를 접두어로 붙인다(예: vqa:, visual grounding:).
다중 모달 입력을 주어진 텍스트 라벨을 생성하기 위한 단일 최대가능도(objective)로 학습한다.
COCO 및 Visual Genome의 9.18M 이미지–텍스트 페어에서 멀티모달 언어 모델링, VQA, 이미지-텍스트 매칭, 시각적 정합, 그리고 근거 있는 캡션 작성 등 여러 프리트레이닝 태스크로 사전학습한다.
7개의 다운스트림 태스크에서 평가하여 태스크-특정 판별 모델과 비교하고 멀티태스크 미세조정을 테스트한다.

실험 결과

연구 질문

RQ1단일 모델을 사용해 텍스트 생성을 목표로 비전-언어 태스크를 효과적으로 통합할 수 있는가?
RQ2생성형 V&L 모델은 희귀한 답변 질문에 대해 판별 기반과 비교해 더 잘 일반화하는가?
RQ3단일 아키텍처가 태스크별 헤드 없이 여러 다운스트림 비전-언어 태스크를 잘 수행할 수 있는가?
RQ4하나의 매개변수 세트로 멀티태스크 미세조정을 하면 개별적으로 훈련된 단일 태스크 모델의 성능에 근접하거나 이를 초과하는가?

주요 결과

VL-T5 및 VL-BART는 7개의 다운스트림 벤치마크에서 최근의 최첨단 태스크-특정 V&L 모델과 비슷한 성능을 달성한다.
생성형 모델은 희귀한 답변을 가진 질문에서 판별 기반보다 일반화가 더 잘 나타난다.
하나의 가중치 세트로 구성된 단일 아키텍처가 여러 태스크에서 잘 작동하여 개별적으로 최적화된 단일 태스크 모델과 비슷한 결과를 얻는다.
데이터세트별 접두사는 VQA 및 GQA에 필수적이지 않으며, 단일 접두사가 경우에 따라 성능 향상을 가져올 수 있다.
이 프레임워크는 개방형 NL 답변을 가능하게 하며 VQA, NLVR2, RefCOCOg, VCR, COCO 캡션 작성, Multi30K 번역 등의 태스크에서 경쟁력 있는 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.