[논문 리뷰] Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
Unicoder-VL 프리-trains 다층 Transformer를 사용해 세 가지 cross-modal 목표로 시각-언어 표현을 공동으로 학습하며, 미세조정 후 강력한 이미지-텍스트 검색 및 경쟁력 있는 시각적 상식 추론을 얻는다.
We propose Unicoder-VL, a universal encoder that aims to learn joint representations of vision and language in a pre-training manner. Borrow ideas from cross-lingual pre-trained models, such as XLM and Unicoder, both visual and linguistic contents are fed into a multi-layer Transformer for the cross-modal pre-training, where three pre-trained tasks are employed, including Masked Language Modeling (MLM), Masked Object Classification (MOC) and Visual-linguistic Matching (VLM). The first two tasks learn context-aware representations for input tokens based on linguistic and visual contents jointly. The last task tries to predict whether an image and a text describe each other. After pretraining on large-scale image-caption pairs, we transfer Unicoder-VL to caption-based image-text retrieval and visual commonsense reasoning, with just one additional output layer. We achieve state-of-the-art or comparable results on both two tasks and show the powerful ability of the cross-modal pre-training.
연구 동기 및 목표
- 시각 맥 context를 가진 긴 언어 시퀀스를 처리할 수 있는 보편적 교차 모달 인코더의 필요성을 제기한다.
- 대규모 이미지-자막 데이터를 활용하여 교차 모달 사전 학습을 통해 공동 표현을 학습한다.
- 시각적・언어적 모달리티를 정렬하기 위해 세 가지 교차 모달 프리-트레이닝 태스크를 설계하고 평가한다.
제안 방법
- BERT에서 초기화된 다층 Transformer를 사용해 시각 영역 특징과 언어 토큰을 융합한다.
- 이미지 영역 임베딩과 위치 특징을 주입하고 텍스트 토큰과 함께 공동으로 인코딩한다.
- 세 가지 목표로 프리트레이닝: Masked Language Modeling (MLM), Masked Object Classification (MOC), Visual-linguistic Matching (VLM).
- MLM은 주변 텍스트와 모든 이미지 영역을 이용해 가려진 단어를 예측한다.
- MOC은 가려진 시각 영역의 객체 범주를 예측한다.
- VLM은 이미지-텍스트 쌍이 서로를 설명하는지 결정하는 이진 예측기를 학습한다.

실험 결과
연구 질문
- RQ1단일 Transformer 기반 인코더가 이미지-자막 데이터에서 강건한 교차 모달 표현을 학습할 수 있는가?
- RQ2교차 모달 프리-트레이닝 목표가 다운스트림 이미지-텍스트 검색 및 시각적 상식 추론을 향상시키는가?
- RQ3모델 규모와 프리-훈련 데이터 크기가 교차 모달 전이 성능에 어떤 영향을 미치는가?
주요 결과
- 사전 학습된 Unicoder-VL은 MSCOCO 및 Flickr30K에서 미세조정한 후 이미지-텍스트 검색 벤치마크에서 최첨단 성능을 달성한다.
- Unicoder-VL의 제로샷 검색은 태스크 특화 미세 조정 없이도 일반적인 교차 모달 정합성을 보여준다.
- Unicoder-VL은 Visual Commonsense Reasoning(VCR)에서 경쟁력 있는 결과를 제시하며, 인지적 과제에 대한 교차 모달 프리-트레이닝의 이점을 시사한다.
- 더 큰 Transformer 깊이와 더 많은 프리-트레이닝 데이터로 모델 성능이 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.