Skip to main content
QUICK REVIEW

[论文解读] EVA-CLIP: Improved Training Techniques for CLIP at Scale

Quan Sun, Yuxin Fang|arXiv (Cornell University)|Mar 27, 2023
Multimodal Machine Learning Applications被引用 78
一句话总结

EVA-CLIP 通過 EVA 基礎初始化、LAMB 優化、令牌遮蔽、閃速注意力等提升訓練效率與性能,在大規模下以降低訓練成本實現最先進的零-shot 準確率。

ABSTRACT

Contrastive language-image pre-training, CLIP for short, has gained increasing attention for its potential in various scenarios. In this paper, we propose EVA-CLIP, a series of models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates new techniques for representation learning, optimization, and augmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the same number of parameters but significantly smaller training costs. Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+ with only 9 billion seen samples achieves 82.0 zero-shot top-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billion seen samples achieves 80.4 zero-shot top-1 accuracy on ImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to the community at https://github.com/baaivision/EVA/tree/master/EVA-CLIP.

研究动机与目标

  • 促進可擴展且高效的 CLIP 訓練,同時保持或提高零-shot 表現。
  • 利用預訓練的 EVA 表徵初始化 CLIP 編碼器以實現更快的收斂。
  • 通過專門技術降低訓練成本並穩定大規模 CLIP 優化。
  • 在各種模型尺寸上展示 ImageNet 變體與輔助基準的強大零-shot 表現。

提出的方法

  • 用預訓練的 EVA 表徵初始化 CLIP 編碼器以提升特徵品質與收斂性。
  • 使用 LAMB 優化器以實現 CLIP 規模模型的大批量訓練。
  • 對圖像令牌實施 50% 的隨機遮蔽(FLIP 方法),以將時間複雜度減半並提升有效批量大小。
  • 在訓練期間使用閃速注意力以加速注意力計算。
  • 使用 DeepSpeed 與 ZeRO-1 進行內存效率與可擴展優化訓練。
  • 在 ImageNet 變體、27 個零-shot 圖像分類基準、視頻基準與檢索任務上報告多個 EVA-CLIP 配置的結果。

实验结果

研究问题

  • RQ1 EVA 基礎初始化結合優化訓練技術是否能在 seen samples 達到十億級的穩定、可擴展 CLIP 訓練?
  • RQ2所提出的技術如何影響不同 ImageNet 變體與其他基準的零-shot 表現?
  • RQ3在將令牌遮蔽與大批量優化應用於 CLIP 時,訓練時間、內存與精度的取捨為何?
  • RQ4相較於先前的 CLIP 模型,更大規模的 EVA-CLIP 模型在較少訓練樣本的情況下能否維持或提升零-shot 及檢索性能?

主要发现

  • 最大規模的 EVA-02-CLIP-E/14+(5.0B 參數,9B seen)在 ImageNet-1K 驗證集上實現 82.0% 的 zero-shot top-1。
  • 較小的 EVA-02-CLIP-L/14+(430M 參數,6B seen)在 ImageNet-1K 驗證集上實現 80.4% 的 zero-shot top-1。
  • EVA-CLIP 模型在零-shot 的 ImageNet 變體與魯棒性基準上,搭配相似或更少的參數與數據,優於 CLIP 與 OpenCLIP 基線。
  • 在 27 個基準上的零-shot 平均精度最高可達 80.9%(對於 EVA-02-CLIP-E/14+ 在 ImageNet 變體與 ObjectNet)。
  • 50% 圖像令牌遮蔽可在不顯著影響精度的情況下實現 2x 的加速;閃速注意力進一步縮短訓練時間。
  • 使用 DeepSpeed ZeRO-1 與 fp16/bfloat16(視需要)訓練可實現穩定的大規模 CLIP,且資源使用更少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。