[논문 리뷰] VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
VLMo는 Mixture-of-Modality-Experts (MoME) Transformer를 갖춘 통합 비전-언어 프리트레이닝 모델을 제시합니다. 이 모델은 검색을 위한 효율적 듀얼 인코더와 분류를 위한 퓨전 인코더로 모두 작동할 수 있으며, 이미지-전용 및 텍스트-전용 데이터에 대한 단계적 프리트레이닝으로 강화됩니다.
We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality-Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA, NLVR2 and image-text retrieval. The code and pretrained models are available at https://aka.ms/vlmo.
연구 동기 및 목표
- 통합 VL 프리-train을 제안하여 검색(듀얼 인코더)과 분류(퓨전 인코더) 작업을 모두 지원한다.
- 공유 백본 내에서 이미지, 텍스트 및 이미지-텍스트 쌍을 인코딩하기 위해 MoME Transformer를 도입한다.
- VL 표현을 개선하기 위한 대규모 이미지-전용 및 텍스트-전용 데이터를 활용한 단계적 프리-training을 제안한다.
- 표준 VL 벤치마크에서 VLMo를 프리트레이닝하고 미세조정하여 최첨단 결과를 입증한다.
제안 방법
- 모드별 전문가(비전, 언어, 비전-언어)와 공유 self-attention 계층을 갖춘 Mixture-of-Modality-Experts (MoME) Transformer를 도입한다.
- 전문가를 통한 모달리티-특정 처리를 강제하면서도 시각적·언어적 내용을 정렬하기 위해 주의(attention)를 공유한다.
- 세 가지 작업으로 프리트레이닝한다: image-text contrastive learning (ITC), image-text matching (ITM), and masked language modeling (MLM).
- 단계적 프리트레이닝: 먼저 이미지-전용 프리-training으로 V-FFN 및 self-attention 학습, 그다음 텍스트-전용 프리-training으로 L-FFN, 이어서 VL 프리-training.
- 검색을 위한 듀얼 인코더로 미세조정(Images와 texts를 각각 인코딩)하거나 VL 분류 작업을 위한 퓨전 인코더로 미세조정한다.
- 성과 향상을 위해 데이터 규모를 확장(최대 1B 개의 이미지-텍스트 쌍)하고 배치 크기를 늘린다.
실험 결과
연구 질문
- RQ1단일 MoME Transformer 백본이 시각-언어 작업에서 듀얼 인코더 검색과 퓨전 인코더 분류를 모두 효과적으로 지원할 수 있는가?
- RQ2이미지-전용 및 텍스트-전용 데이터에서의 단계적 프리훈련이 이미지-언어 표현을 이미지-텍스트 전용 프리훈련보다 향상시키는가?
- RQ3상위 MoME 층에 비전-언어 전문가를 포함시키면 교차 모달 상호작용에서 어떤 이득이 발생하는가?
주요 결과
- VLMo는 VL 분류 벤치마크(VQA, NLVR2)에서 최첨단 결과를 달성하고 듀얼 인코더로 사용할 때 이미지-텍스트 검색(COCO, Flickr30K)에서도 경쟁력 있는/선두적 결과를 보인다.
- 퓨전 인코더로 사용할 경우 VLMo는 강력한 VL 추론 성능을 제공하며, 이전의 다수의 퓨전 기반 모델보다 우수한 성능을 보인다.
- 이미지-전용 및 텍스트-전용 데이터로의 단계적 프리-training이 다운스트림 성능을 크게 향상시킨다.
- VLMo-Large++가 약 1B 개의 이미지-텍스트 쌍에서 더 큰 배치 크기로 학습되어 여러 벤치마크에서 새로운 기록을 세운다.
- 듀얼 인코더로 사용할 때 VLMo는 선형 시간 인코딩을 제공하여 계층적(이차식) 퓨전 기반 접근법에 비해 검색 속도가 더 빠르다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.