[論文レビュー] EVA-CLIP: Improved Training Techniques for CLIP at Scale
EVA-CLIP は EVA ベースの初期化、LAMB 最適化、トークンマスキング、フラッシュアテンションを通じてトレーニング効率と性能を高めた CLIP モデルのファミリを提示し、大規模規模でのゼロショット精度を最先端に、学習コストを抑えつつ達成します。
Contrastive language-image pre-training, CLIP for short, has gained increasing attention for its potential in various scenarios. In this paper, we propose EVA-CLIP, a series of models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates new techniques for representation learning, optimization, and augmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the same number of parameters but significantly smaller training costs. Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+ with only 9 billion seen samples achieves 82.0 zero-shot top-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billion seen samples achieves 80.4 zero-shot top-1 accuracy on ImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to the community at https://github.com/baaivision/EVA/tree/master/EVA-CLIP.
研究の動機と目的
- ゼロショット性能を維持または向上させつつ、スケーラブルで効率的な CLIP 訓練を動機づける。
- 事前学習済みの EVA 表現を用いて CLIP エンコーダを初期化し、収束を速める。
- 専門的な手法を用いてトレーニングコストを削減し、大規模 CLIP 最適化を安定化する。
- さまざまなモデルサイズで、ImageNet の variante および補助ベンチマークにおいて強力なゼロショット性能を示す。
提案手法
- 特徴表現の品質と収束を向上させるため、事前学習済み EVA 表現で CLIP エンコーダを初期化する。
- CLIP サイズのモデルの大規模バッチ訓練を可能にするために LAMB 最適化手法を用いる。
- 画像トークンの 50% ランダムマスキング(FLIP アプローチ)を適用し、時間計算量を半減させ、より大きな有効バッチサイズを可能にする。
- トレーニング中のアテンション計算を加速するためにフラッシュアテンションを採用する。
- メモリ効率とスケーラブルな最適化のため DeepSpeed と ZeRO-1 で訓練する。
- ImageNet の variantes、27 件のゼロショット画像分類ベンチマーク、ビデオベンチマーク、検索タスクにおける複数の EVA-CLIP 設定で結果を報告する。
実験結果
リサーチクエスチョン
- RQ1EVA-ベースの初期化と最適化訓練技術を組み合わせることで、見られたサンプル数が数十億規模の安定した、スケーラブルな CLIP 訓練を実現できるか。
- RQ2提案手法は ImageNet の variante および他のベンチマークでのゼロショット性能にどのような影響を与えるか。
- RQ3トークンマスキングと大規模バッチ最適化を CLIP に適用する際の訓練時間・メモリ・精度のトレードオフは何か。
- RQ4より大きな EVA-CLIP モデルは、以前の CLIP モデルと比較して、訓練サンプル数が少なくてもゼロショットおよび検索性能を維持または向上させるか。
主な発見
- Largest EVA-02-CLIP-E/14+ (5.0B params, 9B seen) achieves 82.0% zero-shot top-1 on ImageNet-1K val.
- Smaller EVA-02-CLIP-L/14+ (430M params, 6B seen) achieves 80.4% zero-shot top-1 on ImageNet-1K val.
- EVA-CLIP models outperform CLIP and OpenCLIP baselines across zero-shot ImageNet variants and robustness benchmarks with similar or fewer parameters and data.
- Zero-shot averaged accuracy across 27 benchmarks reaches up to 80.9% for EVA-02-CLIP-E/14+ on ImageNet variants and ObjectNet.
- 50% image token masking yields a 2x speedup with minimal accuracy loss; flash attention further reduces training time.
- Training with DeepSpeed ZeRO-1 and fp16/bfloat16 (as needed) enables stable large-scale CLIP training with reduced resource usage.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。