[论文解读] EVA-CLIP: Improved Training Techniques for CLIP at Scale
EVA-CLIP 通過 EVA 基礎初始化、LAMB 優化、令牌遮蔽、閃速注意力等提升訓練效率與性能,在大規模下以降低訓練成本實現最先進的零-shot 準確率。
Contrastive language-image pre-training, CLIP for short, has gained increasing attention for its potential in various scenarios. In this paper, we propose EVA-CLIP, a series of models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates new techniques for representation learning, optimization, and augmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the same number of parameters but significantly smaller training costs. Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+ with only 9 billion seen samples achieves 82.0 zero-shot top-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billion seen samples achieves 80.4 zero-shot top-1 accuracy on ImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to the community at https://github.com/baaivision/EVA/tree/master/EVA-CLIP.
研究动机与目标
- 促進可擴展且高效的 CLIP 訓練,同時保持或提高零-shot 表現。
- 利用預訓練的 EVA 表徵初始化 CLIP 編碼器以實現更快的收斂。
- 通過專門技術降低訓練成本並穩定大規模 CLIP 優化。
- 在各種模型尺寸上展示 ImageNet 變體與輔助基準的強大零-shot 表現。
提出的方法
- 用預訓練的 EVA 表徵初始化 CLIP 編碼器以提升特徵品質與收斂性。
- 使用 LAMB 優化器以實現 CLIP 規模模型的大批量訓練。
- 對圖像令牌實施 50% 的隨機遮蔽(FLIP 方法),以將時間複雜度減半並提升有效批量大小。
- 在訓練期間使用閃速注意力以加速注意力計算。
- 使用 DeepSpeed 與 ZeRO-1 進行內存效率與可擴展優化訓練。
- 在 ImageNet 變體、27 個零-shot 圖像分類基準、視頻基準與檢索任務上報告多個 EVA-CLIP 配置的結果。
实验结果
研究问题
- RQ1 EVA 基礎初始化結合優化訓練技術是否能在 seen samples 達到十億級的穩定、可擴展 CLIP 訓練?
- RQ2所提出的技術如何影響不同 ImageNet 變體與其他基準的零-shot 表現?
- RQ3在將令牌遮蔽與大批量優化應用於 CLIP 時,訓練時間、內存與精度的取捨為何?
- RQ4相較於先前的 CLIP 模型,更大規模的 EVA-CLIP 模型在較少訓練樣本的情況下能否維持或提升零-shot 及檢索性能?
主要发现
- 最大規模的 EVA-02-CLIP-E/14+(5.0B 參數,9B seen)在 ImageNet-1K 驗證集上實現 82.0% 的 zero-shot top-1。
- 較小的 EVA-02-CLIP-L/14+(430M 參數,6B seen)在 ImageNet-1K 驗證集上實現 80.4% 的 zero-shot top-1。
- EVA-CLIP 模型在零-shot 的 ImageNet 變體與魯棒性基準上,搭配相似或更少的參數與數據,優於 CLIP 與 OpenCLIP 基線。
- 在 27 個基準上的零-shot 平均精度最高可達 80.9%(對於 EVA-02-CLIP-E/14+ 在 ImageNet 變體與 ObjectNet)。
- 50% 圖像令牌遮蔽可在不顯著影響精度的情況下實現 2x 的加速;閃速注意力進一步縮短訓練時間。
- 使用 DeepSpeed ZeRO-1 與 fp16/bfloat16(視需要)訓練可實現穩定的大規模 CLIP,且資源使用更少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。