[論文レビュー] Beyond neural scaling laws: beating power law scaling via data pruning
本論文は、データプルーニングがデータセットサイズに対する従来のべき乗スケーリングを上回ることを理論と実験で示し、パレート最適な剪定の下で指数関数的に近い利得を得られることを示すとともに、スケールにおいて監視付き手法に匹敵する自己教師型の剪定指標を導入している。
Widely observed neural scaling laws, in which error falls off as a power of the training set size, model size, or both, have driven substantial performance improvements in deep learning. However, these improvements through scaling alone require considerable costs in compute and energy. Here we focus on the scaling of error with dataset size and show how in theory we can break beyond power law scaling and potentially even reduce it to exponential scaling instead if we have access to a high-quality data pruning metric that ranks the order in which training examples should be discarded to achieve any pruned dataset size. We then test this improved scaling prediction with pruned dataset size empirically, and indeed observe better than power law scaling in practice on ResNets trained on CIFAR-10, SVHN, and ImageNet. Next, given the importance of finding high-quality pruning metrics, we perform the first large-scale benchmarking study of ten different data pruning metrics on ImageNet. We find most existing high performing metrics scale poorly to ImageNet, while the best are computationally intensive and require labels for every image. We therefore developed a new simple, cheap and scalable self-supervised pruning metric that demonstrates comparable performance to the best supervised metrics. Overall, our work suggests that the discovery of good data-pruning metrics may provide a viable path forward to substantially improved neural scaling laws, thereby reducing the resource costs of modern deep learning.
研究の動機と目的
- トレーニングデータの剪定がデータセットサイズに対するエラーの標준的なべき乗スケーリングを上回るかどうかを動機づけ、分析する。
- 学生-教師パーセプトロン設定におけるデータ剪定の理論的枠組みを構築し、スケーリング挙動を予測する。
- 実モデルとデータセットで剪定されたデータサイズに対する指数関数的なスケーリングを実証的に検証する。
- ImageNet規模で既存のデータ剪定指標をベンチマークし、長所と限界を特定する。
- ラベルなしで監視付き指標の性能に近づく自己教師あり剪定指標を提案する。
提案手法
- マージンに基づく剪定アルゴリズムを定式化し、プローブモデルが例をマージンでランク付けし、剪定されたサブセットを完了まで訓練する。
- 高次元極限でのレプリカ法に基づく解析を用いて ε(α_tot,f,θ) を導出し、最適な剪定レジームを予測する。
- 予測を導出する: (a) 最適な剪定戦略は初期データ量に依存する; (b) パレート最適な剪定は剪定データサイズに対して指数関数的スケーリングを生み出す可能性がある。
- ResNetおよびViTを用いた CIFAR-10、SVHN、ImageNet、CIFAR-10 転移タスクで大規模実験を実施し、理論を検証する。
- ImageNet で 8 種の監督付き剪定指標をベンチマークし、SSL 埋め込みのクラスタリングに基づく自己教師型プロトタイプを導入する。
- 自己教師あり剪定指標(クラスターセンチロイドへのプロトタイプ距離)を提案し、その性能を監督付き指標と比較する。
実験結果
リサーチクエスチョン
- RQ1データ剪定はデータセットサイズに対する検証エラーのべき乗法スケーリングを上回ることができるか?
- RQ2さまざまな初期データ量に対して、どの剪定戦略(どの例を保持するか)が検証性能を最大化するか?
- RQ3パレート最適な剪定戦略は現実のデータサイズ剪定で指数関数的なスケーリングを実現できるか?
- RQ4ImageNet にスケール可能な剪定指標はどれか、そして自己教師型手法はラベルなしでどのように機能できるか?
- RQ5Foundationモデルの事前学習または微調整データを剪定することで、下流タスクの性能を保持または向上させることができるか?
主な発見
- 解析理論は2つのレジームを予測する。データが豊富な場合は難例を保持、データが不足している場合は容易な例を保持、そしてパレート最適な剪定は剪定サイズで指数関数的スケーリングを生む可能性がある。
- ResNetでSVHN、CIFAR-10、ImageNet、およびViTで CIFAR-10 において、剪定データセットサイズに対する指数関数的なスケーリングが実証的に観察された。
- ほとんどの既存の剪定指標は ImageNet へのスケールが悪く、最良のものは重い計算資源やラベルを必要とする;新しい自己教師型プロトタイプ指標は多くの設定で監督付き指標と同等の性能を示す。
- 自己教師あり剪定は SSL 埋め込みのクラスタリングを用いて、ラベルなしのまま堅牢な監督付き指標と同等の性能を達成する。
- 事前学習データの剪定(アップストリーム)は、下流タスクでの微調整時にフル事前学習と同等以上の性能を得ることができ、データ剪定による効率的な転移学習を示唆している。
- 大規模 ImageNet ベンチマークは顕著な剪定の利点を示し、手法間での指標性能を導く。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。