Skip to main content
QUICK REVIEW

[논문 리뷰] How Much Can CLIP Benefit Vision-and-Language Tasks?

Sheng Shen, Liunian Harold Li|arXiv (Cornell University)|2021. 07. 13.
Multimodal Machine Learning Applications참고 문헌 68인용 수 152
한 줄 요약

이 논문은 CLIP를 V&L 모델의 시각 인코더로 직접 미세조정 및 V&L 사전학습에서 사용하여 여러 과제에서 경쟁력 있고 최첨단 결과를 달성하는지 연구한다.

ABSTRACT

Most existing Vision-and-Language (V&L) models rely on pre-trained visual encoders, using a relatively small set of manually-annotated data (as compared to web-crawled data), to perceive the visual world. However, it has been observed that large-scale pretraining usually can result in better generalization performance, e.g., CLIP (Contrastive Language-Image Pre-training), trained on a massive amount of image-caption pairs, has shown a strong zero-shot capability on various vision tasks. To further study the advantage brought by CLIP, we propose to use CLIP as the visual encoder in various V&L models in two typical scenarios: 1) plugging CLIP into task-specific fine-tuning; 2) combining CLIP with V&L pre-training and transferring to downstream tasks. We show that CLIP significantly outperforms widely-used visual encoders trained with in-domain annotated data, such as BottomUp-TopDown. We achieve competitive or better results on diverse V&L tasks, while establishing new state-of-the-art results on Visual Question Answering, Visual Entailment, and V&L Navigation tasks. We release our code at https://github.com/clip-vil/CLIP-ViL.

연구 동기 및 목표

  • CLIP의 대규모 언어-감독 학습을 활용하여 V&L용 시각 인코더를 개선하려는 동기를 제시한다.
  • 직접적인 과제 특화 미세조정과 다운스트림 작업으로의 전이를 포함한 V&L 사전학습의 두 가지 설정에서 CLIP를 시각 인코더로 평가한다.
  • 다양한 V&L 과제에서 전통적인 도메인 내 주석 인코더보다 개선점을 입증한다.
  • V&L 과제 전반에서 CLIP의 강점과 한계를 식별하고 재현성을 위한 오픈 소스 자원을 제공한다.

제안 방법

  • CLIP 시각 인코더를 기존 V&L 모델에 연결하고 세 가지 과제(VQA, 이미지 캡션 생성, Vision-and-Language Navigation(VLN))에서 미세조정한다.
  • CLIP 변형들(CLIP-Res50, CLIP-Res101, CLIP-Res50x4, CLIP-ViT-B)을 ImageNet 사전학습 기준선과 비교한다.
  • V&L 사전학습에서 영역 기반 표현을 CLIP 특징으로 대체하고 재구성, 이미지-텍스트 매칭, VQA 목표로 사전학습한다.
  • 텍스트와 CLIP 시각 임베딩을 입력으로 받는 통합 Transformer를 사용한 V&L 사전학습을 수행하기 위해 CLIP-ViL 및 CLIP-ViL_p 아키텍처를 제안한다.
  • VQA에서 제로샷 CLIP 성능을 평가하고 사전학습/미세조정 중 시각 백본의 언프리징 영향 분석한다.

실험 결과

연구 질문

  • RQ1시각 인코더를 CLIP로 교체하는 것이 V&L 과제(VQA, 이미지 캡션 생성, VLN)에서 성능에 어떤 영향을 미치는가?
  • RQ2CLIP 기반 V&L 모델이 영역 기반 인코더에 비해 경쟁력 있는 또는 최첨단 결과를 달성하는가?
  • RQ3다운스트림 작업을 위한 CLIP과 V&L 사전학습의 결합으로 얻는 이점과 한계는 무엇인가?
  • RQ4CLIP 시각 백본의 언프리징이 V&L 성능에 어떤 영향을 미치는가?
  • RQ5제로샷 CLIP가 미세조정 없이 V&L 과제를 해결할 수 있는가?

주요 결과

  • CLIP-ViL은 직접 미세조정 설정에서 강한 기준선 대비 VQA 정확도를 1.4pp 향상시킨다.
  • 이미지 캡션 생성에서 CLIP-Res50 및 CLIP-Res50x4은 도메인 내 ImageNet 기준선을 능가하고 주목할 만한 CIDEr 및 SPICE 이득을 달성한다.
  • CLIP-ViL_p와 CLIP-Res50x4은 VQA(테스트에서 76.70%) 및 SNLI-VE(테스트에서 80.20%)에서 새로운 최첨단을 달성한다.
  • CLIP-Res50x4은 V&L 사전학습에서 VQA에서 VinVL(영역 기반)을 능가하고 더 적은 사전학습 단계로도 가능하며, 영역 데이터의 이점이 존재하는 GQA에서 VinVL에 근접한다.
  • 사전학습/미세조정 중 CLIP 시각 백본의 언프리징은 CLIP-Res50에서 더 큰 이득을 주며, 일부 영역 기반 기준선보다 시각 인코더로의 역전파가 적응적 이점을 준다.
  • 미세조정되지 않은 제로샷 CLIP은 프롬프트 엔지니어링에도 불구하고 VQA에서 거의 확률에 가까운 성능을 보이며 상호작용 모델링과 과제별 학습의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.