QUICK REVIEW

[논문 리뷰] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

Zirui Wang, Jiahui Yu|arXiv (Cornell University)|2021. 08. 24.

Multimodal Machine Learning Applications참고 문헌 54인용 수 342

한 줄 요약

SimVLM은 약하게 정렬된 이미지-텍스트 데이터에서 단일 Prefix Language Modeling 목표로 비전-언어 표현을 끝-to-end로 사전 학습하여 VL 벤치마크에서 최첨단 결과와 강력한 제로샷 전이 성능을 달성합니다.

ABSTRACT

With recent progress in joint modeling of visual and textual representations, Vision-Language Pretraining (VLP) has achieved impressive performance on many multimodal downstream tasks. However, the requirement for expensive annotations including clean image captions and regional labels limits the scalability of existing approaches, and complicates the pretraining procedure with the introduction of multiple dataset-specific objectives. In this work, we relax these constraints and present a minimalist pretraining framework, named Simple Visual Language Model (SimVLM). Unlike prior work, SimVLM reduces the training complexity by exploiting large-scale weak supervision, and is trained end-to-end with a single prefix language modeling objective. Without utilizing extra data or task-specific customization, the resulting model significantly outperforms previous pretraining methods and achieves new state-of-the-art results on a wide range of discriminative and generative vision-language benchmarks, including VQA (+3.74% vqa-score), NLVR2 (+1.17% accuracy), SNLI-VE (+1.37% accuracy) and image captioning tasks (+10.1% average CIDEr score). Furthermore, we demonstrate that SimVLM acquires strong generalization and transfer ability, enabling zero-shot behavior including open-ended visual question answering and cross-modality transfer.

연구 동기 및 목표

비용이 많이 드는 주석과 복잡한 목표에 대한 의존도를 줄이는 간단하고 확장 가능한 비전-언어 사전 학습 프레임워크를 동기화합니다.
원시 이미지와 텍스트에 대한 엔드-투-엔드 Prefix Language Modeling이 MLM 기반 VLP 방법과 맞먹거나 능가할 수 있음을 입증합니다.
대규모의 약하게 정렬된 감독으로 제로샷 일반화 및 교모달 전이를 강하게 보여줍니다.

제안 방법

객체 탐지기 없이 원시 이미지 패치와 텍스트 토큰을 처리하기 위해 Transformer 백본을 사용합니다.
Prefix Language Modeling을 채택하여 남은 토큰에 대해 양방향 접두 인코딩과 자기회귀 텍스트 생성을 가능하게 합니다.
단 하나의 LM 손실로 대규모의 약하게 정렬된 이미지-텍스트 및 텍스트 전용 데이터에서 처음부터 사전 학습합니다.
패치 임베딩 전에 Conv 단계를 통해 이미지 패치를 통합하고 이미지 토큰에 대해 2D 상대 어텐션을 적용합니다.
단일 단계의 사전 학습-미세조정 파이프라인에서 표준 VL 벤치마크에 대해 미세조정합니다.

실험 결과

연구 질문

RQ1최소한의 생성적 비전-언어 사전 학습 프레임워크가 언어 모델링 목표만으로 학습되었을 때 VL 벤치마크에서 SOTA를 달성할 수 있는가?
RQ2PrefixLM이 과제 특화 손실이나 객체 탐지기 없이도 효과적인 제로샷 및 교모달 전이를 가능하게 하는가?
RQ3약하게 라벨링된 이미지-텍스트 데이터(및 텍스트 전용 데이터)를 사용하는 것이 탐지 기반 사전 학습과 비교하여 VL 작업에 미치는 영향은 무엇인가?
RQ4아키텍처 선택(이미지 패치화, Conv 단계, 위치 인코딩)이 VL 성능에 미치는 영향은 무엇인가?
RQ5제로샷 설정에서 오픈 엔드 VQA 및 교모달 전이가 모델에 나타날 수 있는가?

주요 결과

SimVLM은 추가 데이터나 과제 특화 손실 없이 여섯 개의 VL 벤치마크에서 최첨단 결과를 달성합니다.
VQA에서 SimVLM_base, Large, Huge가 이전 방법들을 능가하며, Huge는 VQA 점수 80% 이상에 도달합니다.
NLVR2 및 SNLI-VE에서 SimVLM은 모델 규모에 따라 새로운 SOTA/근사-SOTA 정확도를 달성합니다.
이미지 캡션 생성 및 NoCaps/Multi30k에서 큰 이익이 나타나며, 평균 CIDEr 점수가 약 10포인트 상승합니다.
스케일링과 약한 감독으로 제로샷 교모달 전이 및 오픈 엔드 VQA 기능이 나타납니다.
교모달 전이(텍스트 전용 미세조정 후 VL 작업 평가)가 감독된 베이스라인과 경쟁력 있는 결과를 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.