QUICK REVIEW

[논문 리뷰] WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

Yuqi Huo, Manli Zhang|arXiv (Cornell University)|2021. 03. 11.

Multimodal Machine Learning Applications참고 문헌 38인용 수 85

한 줄 요약

WenLan은 MoCo에서 영감을 받은 대규모 음수 사전 위에 구축된 두-타워, 교차 모달 대조 프리트레이닝 모델 BriVL를 선보이며, 30M 개의 이미지-텍스트 중국어 데이터셋으로 학습되어 다운스트림 비전-언어 태스크에서 UNITER와 CLIP을 능가한다.

ABSTRACT

Multi-modal pre-training models have been intensively explored to bridge vision and language in recent years. However, most of them explicitly model the cross-modal interaction between image-text pairs, by assuming that there exists strong semantic correlation between the text and image modalities. Since this strong assumption is often invalid in real-world scenarios, we choose to implicitly model the cross-modal correlation for large-scale multi-modal pre-training, which is the focus of the Chinese project `WenLan' led by our team. Specifically, with the weak correlation assumption over image-text pairs, we propose a two-tower pre-training model called BriVL within the cross-modal contrastive learning framework. Unlike OpenAI CLIP that adopts a simple contrastive learning method, we devise a more advanced algorithm by adapting the latest method MoCo into the cross-modal scenario. By building a large queue-based dictionary, our BriVL can incorporate more negative samples in limited GPU resources. We further construct a large Chinese multi-source image-text dataset called RUC-CAS-WenLan for pre-training our BriVL model. Extensive experiments demonstrate that the pre-trained BriVL model outperforms both UNITER and OpenAI CLIP on various downstream tasks.

연구 동기 및 목표

웹 데이터에서 흔히 나타나는 약한 이미지-텍스트 상관관계 하에서 견고한 다중 모달 이해를 촉진한다.
MoCo에서 영감을 받은 대조 학습을 활용하는 두-타워 교차 모달 프리트레이닝 프레임워크(BriVL)를 제안한다.
프리트레이닝을 위한 대규모 중국어 다원 소스 이미지-텍스트 데이터셋(RUC-CAS-WenLan)을 구성한다.
이미지-텍스트 검색 및 이미지 캡션 태스크에서 BriVL의 효과를 입증하고 배포 준비가 된 이점을 제시한다.

제안 방법

이미지 인코더와 텍스트 인코더를 분리한 두-타워 아키텍처를 사용한다.
이미지-텍스트 임베딩을 정렬하기 위해 InfoNCE 손실이 포함된 교차 모달 대조 학습을 채택한다.
다수의 음수 샘플을 제공하기 위해 모멘텀 업데이트된 대형 사전(MoCo 스타일 큐)을 도입한다.
RUC-CAS-WenLan(30M 이미지-텍스트 쌍)에서 1B 파라미터 BriVL 모델로 프리트레이닝을 수행하며; 10B 파라미터로 확장할 계획이다.
더 큰 단일-모델 백본으로 인코더를 쉽게 교체하고 다운스트림 태스크 적용성(검색, 생성, 시각 다이얼로그)을 가능하게 한다.

실험 결과

연구 질문

RQ1대규모 음수 사전을 가진 두-타워 교차 모달 대조 프레임워크가 노이즈가 있는 웹 이미지-텍스트 데이터에서 단일-타워 모델보다 우수한 성능을 보일 수 있는가?
RQ2암시적(약한) 교차 모달 상관성 모델링이 비전-언어 태스크의 강력한 다운스트림 성능에 충분한가?
RQ3중국어 다중 모달 상황에서 BriVL의 확장(파라미터 수, 데이터 양)이 검색 및 캡션 벤치마크에 미치는 영향은?
RQ4중국어 다중 소스 데이터 및 관련 다운스트림 태스크에서 BriVL은 OpenAI CLIP 및 UNITER와 어떻게 비교되는가?

주요 결과

BriVL은 AIC-ICC 검증 세트에서 이미지-텍스트 검색에서 CLIP과 UNITER를 능가합니다 (Image-to-Text: R@1 20.3 대 CLIP 13.4 및 UNITER 14.8; Text-to-Image: R@1 14.4 대 CLIP 7.8 및 UNITER 9.8).
AIC-ICC에서 비교 방법들 중 이미지 캡션 작성에서 BriVL이 최고 성능을 달성합니다 (CIDEr 220.7; BLEU 66.1; METEOR 41.1; ROUGE-L 71.9).
WenLan 테스트 세트에서 BriVL은 검색에서 큰 상승을 보여줍니다 (Image-to-Text R@1 36.1; Text-to-Image R@1 36.0) CLIP 및 UNITER 대비.
사용자 연구는 BriVL의 검색 품질이 CLIP보다 우수함을 뒷받침하며, BriVL을 UNITER와 결합하면 추가 이점을 얻습니다.
BriVL은 추론 속도가 빠름을 보여주며 (대략 CLIP 속도, UNITER 대비 약 20배 빠름) 클라우드 API 및 이미지-텍스트 생성과 같은 다운스트림 태스크의 가능성을 입증합니다.
이 모델은 128 GPUs로 7일 학습했으며 향후 10B-parameter 반복과 500M image-text 쌍으로 확장될 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.