[논문 리뷰] Image Captioners Are Scalable Vision Learners Too
이 논문은 이미지 캡션화를 비전 인코더의 사전 학습 목표로 재평가하며, 캡션 생산기가 대조적 사전 학습보다 대다수의 비전-언어 태스크에서 일치하거나 우수하게 수행할 수 있음을 보인다. 특히 확장 가능한 CapPa 변형과 decoupled decoders와 함께 성능이 향상된다.
Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed.
연구 동기 및 목표
- 이미지 캡션화가 CLIP와 같은 대조 기반 방법에 비해 비전 인코더의 경쟁력 있는 사전 학습 태스크가 될 수 있는지 평가한다.
- 모델 아키텍처, 규모, 사전 학습 데이터가 캡션 기반 표현의 품질에 어떤 영향을 미치는지 조사한다.
- AR(autoregressive)와 병렬 디코딩을 결합한 CapPa 사전 학습 방식을 개발·평가한다.
- 캡션 기반 인코더가 다양한 디코더 및 VQA, OCR, 세밀 분류와 같은 다운스트림 태스크와 어떻게 상호작용하는지 검토한다.
제안 방법
- 표준 Transformer 디코더를 사용해 이미지 캡션을 예측하도록 ViT 기반 비전 인코더를 사전 학습한다(Captioner, Cap).
- loss나 아키텍처를 바꾸지 않고 일부 학습 사례에서 모든 캡션 토큰을 병렬로 예측하는 병렬 예측(CapPa)을 도입한다.
- 어텐션, MLP, LayerNorm의 바이어스를 제거하고 GELU를 사용하며 디코더 입력/출력 임베딩은 공유하지 않고, 디코더 폭은 인코더의 절반 깊이로 맞춘다.
- WebLI에서 파생된 영어 부분집합에 대해 1B 개의 이미지/alt-text 쌍으로 학습하고, 캡션링은 8k 배치, CLIP 기준은 8k/16k를 사용하며 AdaFactor 옵티마이저와 코사인 스케줄을 적용한다.
- 10-shot 선형 프로브, ImageNet1k에 대한 전체 미세 조정, LiT 기반 제로샷/분류 및 추출에서 신선한 디코더와 동결된 디코더를 모두 사용한 평가를 수행한다.
- Cap/CapPa를 컴퓨트 및 데이터가 매칭된 CLIP* 기준과 비교하고, 모델 크기 ViT-S/M/B, ViT-L/14에 따른 확장성을 검토한다.
실험 결과
연구 질문
- RQ1이미지 캡션화만으로도 비전-언어 태스크에서 대조적 사전 학습과 비교해 비전 인코더에 경쟁력 있거나 우수한 성능을 제공할 수 있는가?
- RQ2아키텍처 선택, 모델 규모, 사전 학습 데이터가 캡션 기반 표현의 품질에 어떤 영향을 미치는가?
- RQ3CapPa 학습 변형이 자동회귀 캡션화나 CLIP에 비해 다운스트림 태스크 성능 및 제로샷 능력을 향상시키는가?
- RQ4캡션생성 기반 인코더가 서로 다른 디코더(무작위 초기화 vs. 사전 학습/동결)와 조합될 때 캡션화, VQA, OCR, 세밀 분류와 같은 태스크에서의 전달 능력이 얼마나 잘 수행되는가?
주요 결과
- Captioner(Cap) 모델은 비전 인코더를 CLIP와 경쟁력 있는 소수-shot 분류 및 큰 라벨 데이터셋에서 비전-언어 전달에 대해 경쟁적으로 만든다.
- Autoregressive와 병렬 디코딩을 결합한 CapPa는 일관되게 Cap를 능가하고, 특히 캡션화 및 VQA 태스크에서 CLIP*와의 일치 또는 초과를 보이는 경향이 있다.
- CapPa는 더 큰 모델과 더 많은 데이터에서 이득을 크게 나타내며, 큰 배치 크기에서 CLIP*와도 경쟁력이 있고, LiT 디코더를 쓸 때 제로샷 분류에서 CLIP*를 능가하는 경우가 많다.
- 캡션 기반 표현은 세밀 분류 및 ARO/SugarCrepe 스타일의 관계/질의 속성에서 CLIP 변종에 비해 우수한 성능을 보인다.
- CapPa 인코더에 고정된 언어 디코더(T5, GPT-2)를 사용할 때도 CapPa의 성능이 유지되거나 향상되며, 사전 학습된 언어 모델과의 호환성이 더 좋다는 것을 시사한다.
- 데이터 소스(WebLI 부분집합 대 LAION-400M)에 관계없이 CapPa는 CLIP*와의 경쟁력을 유지하므로 사전 학습 데이터에 대한 강건성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.