[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision
CLIP은 400M 개의 이미지-텍스트 쌍에서 이미지 인코더와 텍스트 인코더를 함께 학습하여 이미지-텍스트 쌍 매치를 예측하고, 자연어를 이용한 분류기를 형성해 30개가 넘는 비전 벤치마크에 제로샷으로 전이할 수 있게 한다.
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
연구 동기 및 목표
- 자연어 감독으로부터 시각 표현을 직접 학습해 고정된 사후 범주 한계를 극복하려는 동기를 부여한다.
- 모델을 웹 규모의 이미지-텍스트 데이터로 확장하고 데이터세트 특정 미세조정 없이 다양한 비전 태스크로의 전이를 연구한다.
- 제로샷 CLIP가 많은 데이터세트에서 완전 감독기준과 맞먹거나 이를 능가할 수 있음을 보여주고, 로버스트니스와 프롬프트를 분석한다.
제안 방법
- 배치 쌍에 대한 대조적 목표를 사용하여 이미지 인코더와 텍스트 인코더를 함께 학습하고 이미지와 텍스트 임베딩을 정렬한다.
- 영어 자막/설명이 포함된 대규모 400M (image, text) 데이터셋(WIT)을 사용한다.
- 텍스트 인코더로 생성된 텍스트 기반 분류기를 사용하여 텍스트로부터 유도된 분류기로 이미지를 제로샷으로 분류해 전이 성능을 평가한다.
- ResNet 기반 및 Vision Transformer 이미지 인코더와 Transformer 텍스트 인코더를 실험한다.
- 제로샷 정확도를 향상시키기 위해 텍스트 프롬프트 공학과 프롬프트 앙상블링을 적용한다.
- 큰 배치 대조 학습으로 학습하고 다중 모달 임베딩 공간으로 매칭/비매칭 쌍에 대한 대칭적 크로스 엔트로피 손실을 최적화한다.
실험 결과
연구 질문
- RQ1자연어 감독으로 학습된 모델이 데이터세트 특정 라벨 없이도 광범위한 비전 태스크로 효과적으로 전이할 수 있는가?
- RQ2제로샷 CLIP의 성능이 다양한 데이터세트와 태스크에서 감독 기반 기준선과 어떻게 비교되는가?
- RQ3아키텍처, 데이터 규모, 프롬프트 같은 요인이 제로샷 전이 성능과 견고성에 어떤 영향을 미치는가?
주요 결과
| Dataset | aYahoo | ImageNet | SUN |
|---|---|---|---|
| Visual N-Grams | 72.4 | 11.5 | 23.0 |
| CLIP | 98.4 | 76.2 | 58.5 |
- CLIP은 데이터세트별 추가 학습 없이도 30개가 넘는 비전 데이터세트에 대해 의미 있는 제로샷 전이를 달성하며, 종종 데이터세트 특정 훈련 없이도 완전한 감독 기초선과 대등하다.
- ImageNet 제로샷에서 CLIP은 1.28백만 ImageNet 훈련 예제를 사용하지 않고도 원래의 ResNet-50의 정확도와 일치한다.
- 프롬프트 엔지니어링과 앙상블링은 제로샷 정확도를 크게 향상시키며 (ImageNet에서 데이터세트 전체에 걸쳐 거의 5포인트 증가).
- 제로샷 CLIP은 일반 객체 데이터세트의 다수 및 여러 동작 인식 데이터세트에서 완전 감독된 ResNet-50 기준선을 능가할 수 있으며(Kinetics700, UCF101 등).
- Visual N-Grams에 비해 CLIP은 제로샷 ImageNet 및 기타 데이터세트를 상당히 개선하며, 400M 이미지-텍스트 쌍에서 훈련된 CLIP-ResNet-50은 유사한 데이터 규모에서 Scratch로 훈련된 Visual N-Grams의 ImageNet 결과와 일치한다.
- 제로샷 CLIP은 동등 정확도 감독형 ImageNet 모델보다 더 큰 견고성을 보여주며, 제로샷 평가가 광범위한 능력을 더 잘 반영하는 것으로 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.