QUICK REVIEW

[논문 리뷰] Reproducible scaling laws for contrastive language-image learning

Mehdi Cherti, Romain Beaumont|arXiv (Cornell University)|2022. 12. 14.

Multimodal Machine Learning Applications참고 문헌 75인용 수 29

한 줄 요약

이 논문은 공개 데이터 LAION-2B를 사용해 모델 크기, 데이터 크기, 본 샘플 수에 따른 CLIP 유사 모델의 거듭제곱 법칙 스케일링을 보여주고, zero-shot 분류 및 검색 작업에서 OpenCLIP과 OpenAI CLIP를 비교합니다.

ABSTRACT

Scaling up neural networks has led to remarkable performance across a wide range of tasks. Moreover, performance often follows reliable scaling laws as a function of training set size, model size, and compute, which offers valuable guidance as large-scale experiments are becoming increasingly expensive. However, previous work on scaling laws has primarily used private data \& models or focused on uni-modal language or vision learning. To address these limitations, we investigate scaling laws for contrastive language-image pre-training (CLIP) with the public LAION dataset and the open-source OpenCLIP repository. Our large-scale experiments involve models trained on up to two billion image-text pairs and identify power law scaling for multiple downstream tasks including zero-shot classification, retrieval, linear probing, and end-to-end fine-tuning. We find that the training distribution plays a key role in scaling laws as the OpenAI and OpenCLIP models exhibit different scaling behavior despite identical model architectures and similar training recipes. We open-source our evaluation workflow and all models, including the largest public CLIP models, to ensure reproducibility and make scaling laws research more accessible. Source code and instructions to reproduce this study will be available at https://github.com/LAION-AI/scaling-laws-openclip

연구 동기 및 목표

모델 크기, 데이터 크기, 본 샘플 수가 다운스트림 CLIP 성능에 어떤 영향을 미치는지 조사한다.
공개 데이터와 오픈 소스 코드로 멀티모달 학습에 대해 스케일링 법칙이 성립하는지 평가한다.
OpenCLIP(LAION)과 OpenAI CLIP(WIT)의 스케일링 행동을 작업별로 비교한다.

제안 방법

ViT-B/32, B/16, L/14, H/14, g/14를 포함한 여러 규모의 OpenCLIP를 사용해 CLIP 모델을 학습한다.
3B, 13B, 34B개의 샘플을 본 데이터로 LAION-80M, LAION-400M, LAION-2B 데이터 하위 집합을 사용한다.
다양한 다운스트림 작업에서 제로샷 분류, 이미지/텍스트 검색, 선형 프로빙, 미세 조정으로 평가한다.
모델의 Pareto 프런티어에서 성능과 전체 학습 컴퓨팅, 데이터, 본 샘플 수 간의 관계를 설명하기 위해 거듭제곱 법칙을 피팅한다.
오픈소스 평가 워크플로우와 모델이 재현성을 위해 공개된다.

실험 결과

연구 질문

RQ1공개 데이터로 학습될 때 CLIP의 대조적 언어-이미지 사전 학습에서 거듭제곱 법칙 형태의 스케일링 법칙이 성립하는가?
RQ2모델 크기, 데이터 크기, 본 샘플 수가 제로샷 분류 및 검색 성능에 어떻게 상호 작용하는가?
RQ3LAION 데이터로 학습된 OpenCLIP 모델은 WIT에서 학습된 OpenAI CLIP 모델과 달리 다른 스케일링 행동을 보이는가, 그리고 그 이유는 무엇인가?
RQ4스케일링 추세가 강건성 벤치마크와 선형 프로빙/미세 조정 시나리오에 어떻게 전달되는가?

주요 결과

모델/데이터세트	데이터	아키텍처	ImageNet (Top-1)	VTAB+ (Avg)	MS-COCO Retrieval R@5
OpenCLIP CLIP	WIT-400M	L/14	75.5	55.8	61.1
OpenCLIP (LAION)	LAION-2B	L/14	75.2	54.6	71.1
OpenCLIP (LAION)	LAION-2B	H/14	78.0	56.4	73.4

제로샷 성능(분류 및 검색)은 모델/데이터/본 샘플 수에 대해 거듭제곱 법칙으로 스케일링한다.
LAION-2B에서의 OpenCLIP은 검색 작업에서 더 강한 스케일링을 보이고, WIT에서의 OpenAI CLIP은 제로샷 ImageNet 분류에서 더 강한 스케일링을 보인다.
병목 현상이 관찰되었다: 일부 스케일링 차원은 다른 차원을 늘리지 않으면 이득이 제한된다(예: 데이터 대 본 샘플 수).
선형 프로브와 미세 조정의 이점은 규모와 함께 지속되며, 더 큰 데이터/모델, 더 많은 샘플 수를 통해 성능이 향상된다.
스케일링 법칙을 사용한 예측은 더 큰 규모에서 상당한 이득을 시사하며 규모를 통한 로버스트니스 개선도 유사하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.