[논문 리뷰] UFO: A UniFied TransfOrmer for Vision-Language Representation Learning
UFO는 이미지 인코더, 텍스트 인코더, 멀티모달 융합 인코더로 작동할 수 있는 단일 통합 트랜스포머를 도입하여 시각-언어 프리트레이닝을 수행하고, VQA, COCO 캡션 작성, nocaps에서 우수한 성과를 달성하는 동시에 무거운 모달리티 특화 구성 요소 없이 이미지-텍스트 검색에서도 경쟁력을 유지합니다.
In this paper, we propose a single UniFied transfOrmer (UFO), which is capable of processing either unimodal inputs (e.g., image or language) or multimodal inputs (e.g., the concatenation of the image and the question), for vision-language (VL) representation learning. Existing approaches typically design an individual network for each modality and/or a specific fusion network for multimodal tasks. To simplify the network architecture, we use a single transformer network and enforce multi-task learning during VL pre-training, which includes the image-text contrastive loss, image-text matching loss, and masked language modeling loss based on the bidirectional and the seq2seq attention mask. The same transformer network is used as the image encoder, the text encoder, or the fusion network in different pre-training tasks. Empirically, we observe less conflict among different tasks and achieve new state of the arts on visual question answering, COCO image captioning (cross-entropy optimization) and nocaps (in SPICE). On other downstream tasks, e.g., image-text retrieval, we also achieve competitive performance.
연구 동기 및 목표
- 단일 트랜스포머를 사용하여 단일 모달과 다중 모달 비전-언어 작업 모두의 아키텍처 복잡성을 줄이고 동기를 제시한다.
- 단일화된 모델을 ITC, ITM, MLM, S-MLM 등 여러 작업으로 사전 학습하여 단일 모달 및 다중 모달 기능을 모두 지원한다.
- 모멘텀 교사를 통한 다중 작업 프리트레이닝이 VQA, 이미지 캡션(이미지 캡션 작성), nocaps에서 경쟁력 있거나 최첨단의 결과를 낳고, 검색 작업에서도 효율성을 유지함을 보여준다.
제안 방법
- 이미지를 패치로 투영하고 텍스트를 임베딩으로 변환하여 공유 토큰 시퀀스를 형성함으로써 이미지 인코더, 텍스트 인코더, 융합 네트워크로 작용하는 단일 트랜스포머 백본을 채택한다.
- 이미지-텍스트 대조 손실(ITC)을 사용하여 이미지와 텍스트의 단일 모달 표현을 학습한다.
- 멀티모달 융합 작업을 위해 양방향 및 시퀀스 투 시퀀스 어텐션 마스크와 함께 이미지-텍스트 매칭 손실(ITM) 및 마스킹된 언어 모델링 손실(MLM)을 사용한다.
- ITC/MLM/S-MLM 작업을 위한 증류 손실을 통해 프리트레이닝을 안내하기 위해 모멘텀 교사를 도입한다.
- 다중 작업 최적화를 안정화하고 작업 간 갈등을 줄이기 위해 매 반복마다 임의로 손실을 샘플링하여 학습한다.
실험 결과
연구 질문
- RQ1단일의 공유 트랜스포머 아키텍처가 이미지/텍스트의 단일 모달 인코딩과 비전-언어 과제를 위한 다중 모달 융합을 효과적으로 처리할 수 있는가?
- RQ2다중 작업 비전-언어 프리트레이닝 손실(ITC, ITM, MLM, S-MLM)이 서로를 보완하며, 모멘텀 증류가 다운스트림 VL 과제에서 성능을 향상시키는가?
- RQ3무거운 모달리티 특화 융합 네트워크나 검출기 기반 이미지 특징에 의존하지 않고 VQA, COCO 캡션 작성, nocaps에서 최첨단 성과를 달성할 수 있는가?
주요 결과
- 단일 UniFied transfOrmer (UFO)가 동일한 아키텍처 내에서 이미지 인코더, 텍스트 인코더, 멀티모달 융합 인코더로 작동할 수 있다.
- ITC는 이미지와 텍스트의 단일 모달 이해를 가능하게 하고, ITM과 MLM/S-MLM은 다중 모달 융합 및 언어 생성 능력을 강화한다.
- 모멘텀 교사를 사용하고 매 이터레이션마다 하나의 프리-트레이닝 손실을 무작위로 선택하는 것이 다운스트림 VL 과제 전반에서 향상된 성능과 학습 안정성을 제공한다.
- UFO는 VQA, COCO 이미지 캡션화(CIDEr), nocaps(SPICE)에서 강한 성능을 달성하고, 더 큰 프리트레이닝 데이터와 비교해 이미지-텍스트 검색에서도 경쟁력 있는 성능을 보임.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.