[논문 리뷰] An Inverse Scaling Law for CLIP Training
본 논문은 CLIP 학습에서 역스케일링 법칙(inverse scaling law)을 발견한다: 더 큰 이미지/텍스트 인코더를 사용하면 더 짧은 토큰 시퀀스로 학습하더라도 경쟁력 있는 성능을 유지할 수 있어, CLIPA를 통해 제한된 컴퓨트로 CLIP 학습의 효율성을 가능하게 한다.
CLIP, one of the pioneering foundation models that connect images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even with limited computational resources. For example, using 8 A100 GPUs, our CLIP models achieve zero-shot top-1 ImageNet-1k accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. Our method also works well when scaling up -- with G/14, we register a new record of 83.0% ImageNet-1k zero-shot accuracy, and meanwhile accelerate the training by ~33x compared to its OpenCLIP counterpart. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.
연구 동기 및 목표
- 모델 크기를 키우면 이미지/텍스트 토큰 수를 줄여도 CLIP 학습에서 큰 성능 손실 없이 가능하다는 것을 보여준다.
- 여러 모델 규모에 걸쳐 이미지와 텍스트의 토큰 축소 전략을 체계적으로 비교한다.
- 의미 정보를 최대한 보존하고 스케일링 품질을 최적화하는 토큰 축소 전략을 식별한다.
제안 방법
- CLIP 학습을 위한 8가지 토큰 축소 전략(이미지 4개, 텍스트 4개)을 평가한다.
- ViT 비주얼 인코더와 LAION-400M 데이터 및 2,000 이미지넷-1k 에폭 등가 노출로 비자기회 귀납식 비자 텍스트 인코더를 사용한다.
- 전체 해상도에서 극단적 축소까지의 토큰 길이를 S/16, B/16, L/16 모델에서 테스트한다(예: 이미지 토큰 17개, 텍스트 토큰 8개).
- 이미지 리사이징, 무작위 마스킹, 그리드 마스킹, 블록 마스킹, 절단(truncation), 텍스트 마스킹, 블록 마스킹, 구문 마스킹 등 토큰 축소 전략을 비교한다.
- CLIPA를 도입하여 더 큰 모델과 축소된 입력 토큰으로 CLIP을 효율적으로 학습하고 제로샷 정확도를 높이면서 컴퓨트 비용을 낮춘다.
- 제로샷 이미지넷-1k, COCO 검색 및 VTAB 벤치마크에서 평가하여 강건성과 일반화 능력을 평가한다.
실험 결과
연구 질문
- RQ1더 큰 CLIP 모델이 학습 중에 이미지/텍스트 토큰 시퀀스를 더 짧게 사용해도 성능 저하가 크지 않은가?
- RQ2의미 정보를 최대한 보존하여 역스케일링 효과를 극대화하는 토큰 축소 전략은 무엇인가?
- RQ3역스케일링 법칙을 CLIP 학습에 적용할 때의 실용적 컴퓨트-시간 트레이드는 무엇이며 제한된 자원에서 OpenCLIP에 비해 CLIPA의 성능은 어떠한가?
- RQ4역스케일링 법칙이 모델 유형(ViT 기반 및 ConvNeXt)과 더 큰 데이터셋/모델 규모에서 성립하는가?
주요 결과
- 더 큰 모델은 더 적은 이미지/텍스트 토큰으로도 유사한 성능 저하를 보이며 CLIP 학습에 대한 역스케일링 법칙을 입증한다.
- 이미지 토큰 축소: 전체 196개 토큰에서 더 작은 길이로의 축소 시, 모델 크기가 커질수록 성능 저하가 작아지는 경향이 나타난다(예: S/16에서 6.2% 저하, L/16에서 3.0% 저하가 특정 축소에서 관찰).
- 텍스트 토큰 축소도 유사한 역스케일링 현상을 보이며, 짧은 텍스트 길이에서 구문 마스킹이 종종 최상의 성능을 제공한다(예: B/16, 8 토큰에서 제로샷 정확도 69.0%).
- 이미지 리사이징은 마스킹 전략보다 더 많은 의미 정보를 보존하고 훨씬 적은 토큰으로도 강력한 성능을 내는 경향이 있다(예: L/16에서 112×112 입력으로 제로샷 68.9%).
- CLIPA는 제로샷 ImageNet-1k 정확도에서 오픈CLIP 기반선 대비 GPU 시간은 극적으로 감소한 상태로 경쟁력 있거나 더 나은 성능을 달성한다(예: CLIPA-B/16 약 10배, CLIPA-L/16 약 17배 더 적은 시간 소요).
- 대규모에서 CLIPA-H/14는 OpenCLIP-H/14 대비 학습 비용의 약 1/15에 해당하는 수준에서 IN-1k 약 79.1%를 달성하며, CLIPA-G/14는 제로샷 IN-1k에서 83.0%의 신기록을 약 33배 덜한 컴퓨트로 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.