QUICK REVIEW

[论文解读] EVA-CLIP: Improved Training Techniques for CLIP at Scale

Quan Sun, Yuxin Fang|arXiv (Cornell University)|Mar 27, 2023

Multimodal Machine Learning Applications被引用 78

一句话总结

EVA-CLIP 通過 EVA 基礎初始化、LAMB 優化、令牌遮蔽、閃速注意力等提升訓練效率與性能，在大規模下以降低訓練成本實現最先進的零-shot 準確率。

ABSTRACT

Contrastive language-image pre-training, CLIP for short, has gained increasing attention for its potential in various scenarios. In this paper, we propose EVA-CLIP, a series of models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates new techniques for representation learning, optimization, and augmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the same number of parameters but significantly smaller training costs. Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+ with only 9 billion seen samples achieves 82.0 zero-shot top-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billion seen samples achieves 80.4 zero-shot top-1 accuracy on ImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to the community at https://github.com/baaivision/EVA/tree/master/EVA-CLIP.

研究动机与目标

促進可擴展且高效的 CLIP 訓練，同時保持或提高零-shot 表現。
利用預訓練的 EVA 表徵初始化 CLIP 編碼器以實現更快的收斂。
通過專門技術降低訓練成本並穩定大規模 CLIP 優化。
在各種模型尺寸上展示 ImageNet 變體與輔助基準的強大零-shot 表現。

提出的方法

用預訓練的 EVA 表徵初始化 CLIP 編碼器以提升特徵品質與收斂性。
使用 LAMB 優化器以實現 CLIP 規模模型的大批量訓練。
對圖像令牌實施 50% 的隨機遮蔽（FLIP 方法），以將時間複雜度減半並提升有效批量大小。
在訓練期間使用閃速注意力以加速注意力計算。
使用 DeepSpeed 與 ZeRO-1 進行內存效率與可擴展優化訓練。
在 ImageNet 變體、27 個零-shot 圖像分類基準、視頻基準與檢索任務上報告多個 EVA-CLIP 配置的結果。

实验结果

研究问题

RQ1 EVA 基礎初始化結合優化訓練技術是否能在 seen samples 達到十億級的穩定、可擴展 CLIP 訓練？
RQ2所提出的技術如何影響不同 ImageNet 變體與其他基準的零-shot 表現？
RQ3在將令牌遮蔽與大批量優化應用於 CLIP 時，訓練時間、內存與精度的取捨為何？
RQ4相較於先前的 CLIP 模型，更大規模的 EVA-CLIP 模型在較少訓練樣本的情況下能否維持或提升零-shot 及檢索性能？

主要发现

最大規模的 EVA-02-CLIP-E/14+（5.0B 參數，9B seen）在 ImageNet-1K 驗證集上實現 82.0% 的 zero-shot top-1。
較小的 EVA-02-CLIP-L/14+（430M 參數，6B seen）在 ImageNet-1K 驗證集上實現 80.4% 的 zero-shot top-1。
EVA-CLIP 模型在零-shot 的 ImageNet 變體與魯棒性基準上，搭配相似或更少的參數與數據，優於 CLIP 與 OpenCLIP 基線。
在 27 個基準上的零-shot 平均精度最高可達 80.9%（對於 EVA-02-CLIP-E/14+ 在 ImageNet 變體與 ObjectNet）。
50% 圖像令牌遮蔽可在不顯著影響精度的情況下實現 2x 的加速；閃速注意力進一步縮短訓練時間。
使用 DeepSpeed ZeRO-1 與 fp16/bfloat16（視需要）訓練可實現穩定的大規模 CLIP，且資源使用更少。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。