[論文レビュー] An Inverse Scaling Law for CLIP Training
この論文は CLIP のトレーニングにおける inverse scaling law を明らかにする。より大きな画像/テキストエンコーダを用いると、トークン列を短くしても競争力のある性能を維持でき、限られた計算資源で CLIP を効率的に訓練できることを示す。CLIPA により資源効率の良い CLIP 訓練を実現。
CLIP, one of the pioneering foundation models that connect images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even with limited computational resources. For example, using 8 A100 GPUs, our CLIP models achieve zero-shot top-1 ImageNet-1k accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. Our method also works well when scaling up -- with G/14, we register a new record of 83.0% ImageNet-1k zero-shot accuracy, and meanwhile accelerate the training by ~33x compared to its OpenCLIP counterpart. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.
研究の動機と目的
- モデル規模の拡大により、画像/テキストトークン数を減らしても大きな性能低下を伴わずに CLIP 訓練が可能であることを示す。
- 複数のモデルスケールで、画像とテキストのトークン削減戦略を系統的に比較する。
- 意味情報の保存を最適化し、スケーリング品質を最大化するトークン削減戦略を同定する。
提案手法
- CLIP 訓練のための8つのトークン削減戦略を評価する(画像4種、テキスト4種)。
- ViT 視覚エンコーダと非自己回帰型 Transformer テキストエンコーダを用い、LAION-400M データと ImageNet-1k エポック相当の露出で評価する。
- フル解像度から極端な削減(例:画像トークン17、テキストトークン8)まで、S/16, B/16, L/16 のモデルで評価する。
- 画像のリサイズ、ランダムマスキング、グリッドマスキング、ブロックマスキング、切り捨て、テキストマスキング、ブロックマスキング、構文マスキングなどのトークン削減戦略を比較する。
- 大規模モデルと入力トークン削減で CLIP を効率的に訓練し、ゼロショット精度と低計算量を実現する CLIPA というフレームワークを導入する。
- ゼロショット ImageNet-1k、COCO 探索、VTAB ベンチマークで評価し、頑健性と一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1より大きな CLIP モデルは、訓練時に短い画像/テキストトークン列を許容でき、性能の大幅な低下を招かないのか。
- RQ2どのトークン削減戦略が意味情報を最もよく保持し、逆スケーリング効果を最大化するのか。
- RQ3CLIP 訓練で逆スケーリング法を適用する際の現実的な計算時間のトレードオフは何か、資源が限られた場合に OpenCLIP と比較して CLIPA はどう機能するのか。
- RQ4逆スケーリング法はモデルタイプ(ViT ベースと ConvNeXt)およびより大きなデータセット/モデルスケールで成り立つのか。
主な発見
- より大きなモデルは、同様の性能低下を達成するのに必要な画像/テキストトークン数を減らすことができ、CLIP 訓練における逆スケーリング法を支持する。
- 画像トークン削減は、フル196トークンから小さな長さへ移行するとモデルサイズが大きくなるほど性能低下が小さくなる(例: S/16 での低下 6.2%、L/16 での低下 3.0% など、特定の削減での例)。
- テキストトークン削減も同様の逆スケーリング挙動を示し、短いテキスト長で構文マスキングがしばしば最良の性能を提供する(例: B/16、8 トークンでゼロショット精度 69.0%)。
- 画像のリサイズはマスキング戦略より意味情報を多く保持し、少ないトークン数でも高い性能を発揮する(例: L/16 の 112×112 入力でゼロショット 68.9%)。
- CLIPA は OpenCLIP のベースラインよりはるかに少ない GPU 時間で競争力のある、あるいはそれを上回るゼロショット ImageNet-1k 精度を達成(例: CLIPA-B/16 約10倍、CLIPA-L/16 約17倍の少ない時間)。
- スケール時、CLIPA-H/14 は OpenCLIP-H/14 の約1/15 の訓練コストで約 79.1% IN-1k を達成し、CLIPA-G/14 は新記録の 83.0% IN-1k ゼロショットを約 33 倍の少ない計算で達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。