QUICK REVIEW

[논문 리뷰] Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm

Yangguang Li, Feng Liang|arXiv (Cornell University)|2021. 10. 11.

Multimodal Machine Learning Applications참고 문헌 39인용 수 127

한 줄 요약

DeCLIP은 자가지도(self-supervision), 다중 뷰 감독, 그리고 최근접 이웃 감독을 도입하여 대조적 언어-이미지 사전학습의 데이터 효율성을 높이고, CLIP에 비해 훨씬 적은 데이터로도 강력한 제로샷 및 전이 성능을 달성한다.

ABSTRACT

Recently, large-scale Contrastive Language-Image Pre-training (CLIP) has attracted unprecedented attention for its impressive zero-shot recognition ability and excellent transferability to downstream tasks. However, CLIP is quite data-hungry and requires 400M image-text pairs for pre-training, thereby restricting its adoption. This work proposes a novel training paradigm, Data efficient CLIP (DeCLIP), to alleviate this limitation. We demonstrate that by carefully utilizing the widespread supervision among the image-text pairs, our De-CLIP can learn generic visual features more efficiently. Instead of using the single image-text contrastive supervision, we fully exploit data potential through the use of (1) self-supervision within each modality; (2) multi-view supervision across modalities; (3) nearest-neighbor supervision from other similar pairs. Benefiting from intrinsic supervision, our DeCLIP-ResNet50 can achieve 60.4% zero-shot top1 accuracy on ImageNet, which is 0.8% above the CLIP-ResNet50 while using 7.1 x fewer data. Our DeCLIP-ResNet50 outperforms its counterpart in 8 out of 11 visual datasets when transferred to downstream tasks. Moreover, Scaling up the model and computing also works well in our framework.Our code, dataset and models are released at: https://github.com/Sense-GVT/DeCLIP

연구 동기 및 목표

대규모 데이터셋에 의존하지 않고 이미지-텍스트 쌍으로부터 데이터 효율적인 시각 특징 학습을 목표로 한다.
각 모달리티 내에서 및 모달리티 간의 고유 지도 정보를 활용하여 강건한 표현을 학습한다.
가까운 이웃 감독을 도입하여 비슷한 자막을 쌍 간에 활용한다.
여러 아키텍처와 데이터셋에서 데이터 효율성과 전이 가능성을 입증한다.

제안 방법

CLIP 프레임워크에 2타워 이미지-텍스트 인코더 구성을 기반으로 한다.
이미지에 대해 SimSiam, 텍스트에 대해 MLM을 사용한 각 모달리티 내 자가지도(Self-Supervision)를 추가한다.
증강 뷰로부터 2x2 이미지-텍스트 쌍을 대조하여 다중 뷰 감독을 도입한다.
FIFO 임베딩 큐를 통해 가장 가까운 텍스트 임베딩을 추가 감독으로 샘플링하는 최근접 이웃 감독을 제안한다.
손실을 L_DeCLIP = (1-α-β-γ)L_CLIP + αL_ISS + αL_TSS + βL_MVS + γL_NNS로 결합한다.

실험 결과

연구 질문

RQ1다중 모달 데이터 내의 고유 지도 정보가 언어-이미지 사전학습의 데이터 효율성을 개선할 수 있는가?
RQ2자가지도, 다중 뷰, 최근접 이웃 신호가 제로샷 및 전이 성능에 어떻게 기여하는가?
RQ3다양한 인코더 아키텍처 및 데이터세트 규모에서 DeCLIP의 데이터 효율성과 확장성은 어떤가?
RQ4사전학습 데이터를 줄여도 DeCLIP가 다운스트림 태스크에서 경쟁력 있거나 더 우수한 성능을 유지하는가?

주요 결과

DeCLIP은 8,800만 데이터로 ImageNet에서 제로샷 상위 1위 60.4%를 달성하며, CLIP-ResNet50 대비 0.8% 포인트 상승을 7.1배 적은 데이터로 달성한다.
동일 데이터 예산(88M)에서 DeCLIP-ResNet50/ViT-B32는 각각 62.5% 및 66.2%의 제로샷 정확도에 도달하여 해당 CLIP 대응보다 우수하다.
더 큰 모델(RegNetY-64GF + BERT)로 확장하면 88M 데이터로 73.7% 제로샷 정확도를 달성하며, CLIP-R50×64에 비견되면서도 자원은 더 적게 사용한다.
8개 중 11개 다운스트림 데이터셋에서 전이 성능이 CLIP 대비 평균 약 0.8% 포인트 향상된다.
소거(ablation) 결과 자가지도, 다중 뷰, 최근접 이웃 신호 각각이 성능 향상에 기여하며, NN 감독은 특히 주목할 만한 개선을 더한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.