QUICK REVIEW

[논문 리뷰] EVA-CLIP: Improved Training Techniques for CLIP at Scale

Quan Sun, Yuxin Fang|arXiv (Cornell University)|2023. 03. 27.

Multimodal Machine Learning Applications인용 수 78

한 줄 요약

EVA-CLIP은 EVA 기반 초기화, LAMB 최적화, 토큰 마스킹, 및 플래시 어텐션을 통해 학습 효율과 성능을 향상시키는 CLIP 모델 패밀리를 제시하며, 대규모 규모에서 학습 비용을 줄이면서 최첨단 제로샷 정확도를 달성한다.

ABSTRACT

Contrastive language-image pre-training, CLIP for short, has gained increasing attention for its potential in various scenarios. In this paper, we propose EVA-CLIP, a series of models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates new techniques for representation learning, optimization, and augmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the same number of parameters but significantly smaller training costs. Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+ with only 9 billion seen samples achieves 82.0 zero-shot top-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billion seen samples achieves 80.4 zero-shot top-1 accuracy on ImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to the community at https://github.com/baaivision/EVA/tree/master/EVA-CLIP.

연구 동기 및 목표

스케일이 가능하고 효율적인 CLIP 학습을 동기부여하여 제로샷 성능을 보존하거나 향상한다.
사전 학습된 EVA 표현을 활용하여 CLIP 인코더를 초기화하고 더 빠른 수렴을 달성한다.
특수한 기법들을 통해 대규모 CLIP 최적화의 학습 비용을 줄이고 안정적으로 수행한다.
다양한 모델 크기에서 ImageNet 변형과 보조 벤치마크에서 강한 제로샷 성능을 보여준다.

제안 방법

사전 학습된 EVA 표현으로 CLIP 인코더를 초기화하여 특징 품질과 수렴 속도를 개선한다.
LAMB 옵티마이저를 사용하여 CLIP-스케일 모델의 대배치 학습을 가능하게 한다.
이미지 토큰의 50%를 무작위로 마스킹하는 FLIP 방식으로 시간 복잡도를 절반으로 줄이고 더 큰 효과적인 배치 크기를 가능하게 한다.
학습 중 주의 계산을 가속하기 위해 플래시 어텐션을 사용한다.
메모리 효율성과 확장 가능한 최적화를 위해 DeepSpeed와 ZeRO-1로 학습한다.
ImageNet 변형, 27개의 제로샷 이미지 분류 벤치마크, 동영상 벤치마크 및 검색 작업에서 여러 EVA-CLIP 구성에 대한 결과를 보고한다.

실험 결과

연구 질문

RQ1EVA 기반 초기화와 최적화된 학습 기술이 수십억 개의 seen 샘플에서 안정적이고 확장 가능한 CLIP 학습을 가능하게 하는가?
RQ2제안된 기술들이 ImageNet 변형 및 다른 벤치마크에서 제로샷 성능에 어떤 영향을 미치는가?
RQ3토큰 마스킹과 대배치 최적화를 CLIP에 적용할 때 학습 시간, 메모리, 정확도 간의 trade-off는 무엇인가?
RQ4더 큰 EVA-CLIP 모델이 이전 CLIP 모델에 비해 더 적은 학습 샘플로 제로샷 및 검색 성능을 유지하거나 향상시키는가?

주요 결과

가장 큰 EVA-02-CLIP-E/14+ (5.0B params, 9B seen) 은 ImageNet-1K val에서 제로샷 top-1 82.0%를 달성한다.
더 작은 EVA-02-CLIP-L/14+ (430M params, 6B seen) 은 ImageNet-1K val에서 제로샷 top-1 80.4%를 달성한다.
EVA-CLIP 모델은 유사한 또는 더 적은 매개변수와 데이터로 제로샷 ImageNet 변형 및 로버스트니스 벤치마크에서 CLIP 및 OpenCLIP 베이스라인을 능가한다.
27개의 벤치마크에 걸친 제로샷 평균 정확도는 ImageNet 변형 및 ObjectNet에서 EVA-02-CLIP-E/14+에 대해 최대 80.9%에 이른다.
이미지 토큰의 50% 마스킹은 정확도 손실을 최소화하면서 2배의 속도 향상을 제공하며; 플래시 어텐션은 학습 시간을 further 단축한다.
DeepSpeed ZeRO-1 및 필요 시 fp16/bfloat16으로의 학습은 자원 사용을 줄이면서 대규모 CLIP 학습의 안정성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.