QUICK REVIEW

[논문 리뷰] VL-BEiT: Generative Vision-Language Pretraining

Hangbo Bao, Wenhui Wang|arXiv (Cornell University)|2022. 06. 02.

Multimodal Machine Learning Applications인용 수 22

한 줄 요약

VL-BEiT은 단일 모노모달 및 다중 모달 데이터에 대해 통합된 mask-then-predict 목표를 사용하는 양방향 멀티모달 Transformer를 사전학습하여, 비전-언어 태스크에서 강력한 성능과 비전 태스크를 위한 전달 가능한 시각 특징을 달성한다.

ABSTRACT

We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.

연구 동기 및 목표

단일 모노모달 및 다중 모달 데이터를 모두 활용할 수 있는 비전-언어 모델을 위한 간단하고 통합된 생성적 사전학습 접근법의 필요성을 제시한다.
하나의 공유 백본과 단일 단계 학습으로 무에서 시작해 mask-then-predict 목표를 사용하는 사전학습.
비전-언어 태스크와 일반 비전 태스크에 적합한 전달 가능한 멀티모달 표현을 학습한다.

제안 방법

다양한 모달리티를 다루기 위해 혼합 모달리티 전문가(MoME)를 갖춘 공유 멀티모달 Transformer 백본을 사용한다.
세 가지 마스크 예측 작업을 수행한다: 이미지에 대한 masked image modeling, 텍스트에 대한 masked language modeling, 이미지-텍스트 쌍에 대한 masked vision-language modeling.
이미지를 [I_CLS] 토큰이 있는 패치 시퀀스로 표현하고, 텍스트는 [T_CLS]와 [T_SEP]를 갖는 토큰 임베딩으로 표현한다; 멀티모달 입력을 위해 이미지-텍스트 표현을 연결한다.
모노모달 데이터(ImageNet-22K, 이미지용)와 텍스트(영어 위키피디아 및 BookCorpus) 및 멀티모달 데이터(Conceptual Captions, SBU, COCO, Visual Genome)에서 사전 학습한다.
다운스트림 비전-언어 태스크를 위해 이미지 인코더, 듀얼 인코더, 또는 퓨전 인코더로 파인튜닝한다.
사전학습 작업과 MoME 아키텍처를 제거(약화)하여 기여도를 평가한다.

실험 결과

연구 질문

RQ1단일 통합 마스크드 사전학습 목표가 모노모달 및 멀티모달 데이터에서 강력한 비전-언어 표현을 낳을 수 있는가?
RQ2공유된 MoME Transformer가 멀티모달 학습에서 표준 Transformer과 비교해 어떤 성능을 보이는가?
RQ3MVLM(마스크드 비전-언어 모델링)의 영향과 순수 모노모달 MLM/MIM이 다운스트림 태스크에 미치는 영향은 어떠한가?
RQ4사전학습 태스크가 이미지 분류나 의미 분할 같은 순수 비전 태스크로의 전달에 얼마나 기여하는가?

주요 결과

VL-BEiT은 VQA, 시각적 추론, 이미지-텍스트 검색과 같은 비전-언어 벤치마크에서 경쟁력 있는 성능을 달성한다.
모델은 전달 가능한 시각 특징을 학습하여 이미지 분류 및 의미 분할에서 강력한 결과를 얻는다.
특성 분석에서 MVLM이 결정적이며, 모노모달 데이터의 MLM 및 MIM도 긍정적으로 기여한다.
MoME Transformer가 변성실험에서 표준 Transformer를 능가하여 모달리티별 전문가가 멀티모달 이해를 향상시킨다는 것을 시사한다.
VL-BEiT은 하나의 통합된 목표로 한 단계의 무에서의 사전학습이 다재다능한 비전-언어 및 비전 표현을 낳을 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.