QUICK REVIEW

[논문 리뷰] How Much Can CLIP Benefit Vision-and-Language Tasks?

Sheng Shen, Liunian Harold Li|arXiv (Cornell University)|2021. 07. 13.

Multimodal Machine Learning Applications참고 문헌 68인용 수 152

한 줄 요약

이 논문은 CLIP를 V&L 모델의 시각 인코더로 직접 미세조정 및 V&L 사전학습에서 사용하여 여러 과제에서 경쟁력 있고 최첨단 결과를 달성하는지 연구한다.

ABSTRACT

Most existing Vision-and-Language (V&L) models rely on pre-trained visual encoders, using a relatively small set of manually-annotated data (as compared to web-crawled data), to perceive the visual world. However, it has been observed that large-scale pretraining usually can result in better generalization performance, e.g., CLIP (Contrastive Language-Image Pre-training), trained on a massive amount of image-caption pairs, has shown a strong zero-shot capability on various vision tasks. To further study the advantage brought by CLIP, we propose to use CLIP as the visual encoder in various V&L models in two typical scenarios: 1) plugging CLIP into task-specific fine-tuning; 2) combining CLIP with V&L pre-training and transferring to downstream tasks. We show that CLIP significantly outperforms widely-used visual encoders trained with in-domain annotated data, such as BottomUp-TopDown. We achieve competitive or better results on diverse V&L tasks, while establishing new state-of-the-art results on Visual Question Answering, Visual Entailment, and V&L Navigation tasks. We release our code at https://github.com/clip-vil/CLIP-ViL.

연구 동기 및 목표

CLIP의 대규모 언어-감독 학습을 활용하여 V&L용 시각 인코더를 개선하려는 동기를 제시한다.
직접적인 과제 특화 미세조정과 다운스트림 작업으로의 전이를 포함한 V&L 사전학습의 두 가지 설정에서 CLIP를 시각 인코더로 평가한다.
다양한 V&L 과제에서 전통적인 도메인 내 주석 인코더보다 개선점을 입증한다.
V&L 과제 전반에서 CLIP의 강점과 한계를 식별하고 재현성을 위한 오픈 소스 자원을 제공한다.

제안 방법

CLIP 시각 인코더를 기존 V&L 모델에 연결하고 세 가지 과제(VQA, 이미지 캡션 생성, Vision-and-Language Navigation(VLN))에서 미세조정한다.
CLIP 변형들(CLIP-Res50, CLIP-Res101, CLIP-Res50x4, CLIP-ViT-B)을 ImageNet 사전학습 기준선과 비교한다.
V&L 사전학습에서 영역 기반 표현을 CLIP 특징으로 대체하고 재구성, 이미지-텍스트 매칭, VQA 목표로 사전학습한다.
텍스트와 CLIP 시각 임베딩을 입력으로 받는 통합 Transformer를 사용한 V&L 사전학습을 수행하기 위해 CLIP-ViL 및 CLIP-ViL_p 아키텍처를 제안한다.
VQA에서 제로샷 CLIP 성능을 평가하고 사전학습/미세조정 중 시각 백본의 언프리징 영향 분석한다.

실험 결과

연구 질문

RQ1시각 인코더를 CLIP로 교체하는 것이 V&L 과제(VQA, 이미지 캡션 생성, VLN)에서 성능에 어떤 영향을 미치는가?
RQ2CLIP 기반 V&L 모델이 영역 기반 인코더에 비해 경쟁력 있는 또는 최첨단 결과를 달성하는가?
RQ3다운스트림 작업을 위한 CLIP과 V&L 사전학습의 결합으로 얻는 이점과 한계는 무엇인가?
RQ4CLIP 시각 백본의 언프리징이 V&L 성능에 어떤 영향을 미치는가?
RQ5제로샷 CLIP가 미세조정 없이 V&L 과제를 해결할 수 있는가?

주요 결과

CLIP-ViL은 직접 미세조정 설정에서 강한 기준선 대비 VQA 정확도를 1.4pp 향상시킨다.
이미지 캡션 생성에서 CLIP-Res50 및 CLIP-Res50x4은 도메인 내 ImageNet 기준선을 능가하고 주목할 만한 CIDEr 및 SPICE 이득을 달성한다.
CLIP-ViL_p와 CLIP-Res50x4은 VQA(테스트에서 76.70%) 및 SNLI-VE(테스트에서 80.20%)에서 새로운 최첨단을 달성한다.
CLIP-Res50x4은 V&L 사전학습에서 VQA에서 VinVL(영역 기반)을 능가하고 더 적은 사전학습 단계로도 가능하며, 영역 데이터의 이점이 존재하는 GQA에서 VinVL에 근접한다.
사전학습/미세조정 중 CLIP 시각 백본의 언프리징은 CLIP-Res50에서 더 큰 이득을 주며, 일부 영역 기반 기준선보다 시각 인코더로의 역전파가 적응적 이점을 준다.
미세조정되지 않은 제로샷 CLIP은 프롬프트 엔지니어링에도 불구하고 VQA에서 거의 확률에 가까운 성능을 보이며 상호작용 모델링과 과제별 학습의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.