QUICK REVIEW

[論文レビュー] Reproducible scaling laws for contrastive language-image learning

Mehdi Cherti, Romain Beaumont|arXiv (Cornell University)|Dec 14, 2022

Multimodal Machine Learning Applications参考文献 75被引用数 29

ひとこと要約

この論文は、公開データ（LAION-2B）上で訓練された CLIP のようなモデルについて、モデルサイズ、データサイズ、見られたサンプル数の観点でパワー則的なスケーリングを示し、OpenCLIP と OpenAI CLIP をゼロショット分類と検索タスクで比較している。

ABSTRACT

Scaling up neural networks has led to remarkable performance across a wide range of tasks. Moreover, performance often follows reliable scaling laws as a function of training set size, model size, and compute, which offers valuable guidance as large-scale experiments are becoming increasingly expensive. However, previous work on scaling laws has primarily used private data \& models or focused on uni-modal language or vision learning. To address these limitations, we investigate scaling laws for contrastive language-image pre-training (CLIP) with the public LAION dataset and the open-source OpenCLIP repository. Our large-scale experiments involve models trained on up to two billion image-text pairs and identify power law scaling for multiple downstream tasks including zero-shot classification, retrieval, linear probing, and end-to-end fine-tuning. We find that the training distribution plays a key role in scaling laws as the OpenAI and OpenCLIP models exhibit different scaling behavior despite identical model architectures and similar training recipes. We open-source our evaluation workflow and all models, including the largest public CLIP models, to ensure reproducibility and make scaling laws research more accessible. Source code and instructions to reproduce this study will be available at https://github.com/LAION-AI/scaling-laws-openclip

研究の動機と目的

モデルサイズ、データサイズ、見られたサンプル数をスケールアップすることが、CLIPの下流性能にどのように影響するかを調査する。
公開データとオープンソースコードを用いた多モーダル学習において、スケーリング法則が成り立つかを評価する。
複数のタスクにおいて、OpenCLIP（LAION）と OpenAI CLIP（WIT）のスケーリング挙動を比較する。

提案手法

OpenCLIPを用いて、ViT-B/32、B/16、L/14、H/14、g/14 の複数スケールで CLIP モデルを訓練する。
LAION-80M、LAION-400M、LAION-2B のデータサブセットを用い、見られたサンプル数をそれぞれ 3B、13B、34B に設定する。
ゼロショット分類、画像/テキスト検索、線形プロービング、そして多様な下流タスクでの微調整を用いて評価する。
モデルのパレート前線に対してパワー法則を当てはめ、性能を総訓練計算量・データ量・見られたサンプル数と関連付ける。
再現性のために、オープンソースの評価ワークフローとモデルが公開されている。

実験結果

リサーチクエスチョン

RQ1公開データセットで訓練した場合、対照的な言語画像事前学習（CLIP）において、べき乗則の形を取るスケーリング法則は成立するか。
RQ2モデルサイズ、データサイズ、見られたサンプル数がゼロショット分類と検索性能にどのように影響を与えるか、相互作用はどうなるか。
RQ3LAIONデータで訓練したOpenCLIPモデルは、WITで訓練したOpenAI CLIPモデルと異なるスケーリング挙動を示すか、そしてその理由は何か。
RQ4スケーリングの傾向は、頑健性ベンチマークや線形プロービング/ファインチューニングのシナリオにどのように移行するか。

主な発見

モデル/データセット	データ	アーキテクチャ	ImageNet（Top-1）	VTAB+（平均）	MS-COCO 検索 R@5
OpenCLIP CLIP	WIT-400M	L/14	75.5	55.8	61.1
OpenCLIP (LAION)	LAION-2B	L/14	75.2	54.6	71.1
OpenCLIP (LAION)	LAION-2B	H/14	78.0	56.4	73.4

ゼロショット性能（分類と検索）は、モデル/データ/見られたサンプル数に対してパワー法則スケーリングに従う。
LAION-2B 上の OpenCLIP は検索タスクでより強いスケーリングを示す一方、WIT 上の OpenAI CLIP はゼロショット ImageNet 分類でより強いスケーリングを示す。
ボトルネック効果を観察: 他の要因を増やさないと、いくつかのスケーリング次元が利得を制限する（例: データと見られたサンプル数のバランス）。
線形プローブとファインチューニングの利点は規模とともに持続し、より大きなデータ/モデルとより多くの見られたサンプル数で性能が向上する。
スケーリング法則を用いた予測は、より大きなスケールで実質的な利得が見込まれ、スケールとともに頑健性の改善も同程度であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。