[論文レビュー] Configuration-to-Performance Scaling Law with Neural Ansatz
NCPL は事前学習設定全体を学習済み言語モデルでマッピングし、最終損失と損失曲線の予測を正確に行い、制約下でのハイパーパラメータ共調整を支援します。
Researchers build scaling laws to forecast the training performance of expensive large-scale runs with larger model size N and data size D. These laws assume that other training hyperparameters are optimally chosen, which can require significant effort and, in some cases, be impossible due to external hardware constraints. To improve predictability across a broader set of hyperparameters and enable simpler tuning at scale, we propose learning a extit{Configuration-to-Performance Scaling Law} (CPL): a mapping from the extit{full training configuration} to training performance. Because no simple functional form can express this mapping, we parameterize it with a large language model (LLM), and fit it with diverse open-source pretraining logs across multiple sources, yielding a extit{Neural} Configuration-to-Performance Scaling Law (NCPL). NCPL accurately predicts how training configurations influence the final pretraining loss, achieving 20-40% lower prediction error than the configuration-agnostic Chinchilla law and generalizing to runs using up to 10 x more compute than any run in the training set. It further supports joint tuning of multiple hyperparameters with performance comparable to hyperparameter scaling law baselines. Finally, NCPL naturally and effectively extends to richer prediction targets such as loss-curve prediction.
研究の動機と目的
- 多様なハイパーパラメータの下で事前学習済みモデルの性能を網羅的な調整なしに予測する必要性を動機づける。
- 設定を性能へマッピングするニューラル(LLM ベース)Configuration-to-Performance Scaling Law(CPL)を提案する。
- NCPL の最終損失と損失曲線の予測能力を実証し、ハイパーパラメータの共同最適化を可能にする。
- 分布外モデルサイズへの一般化とより大きな計算量への外挿を示す。
- CPL のためにオープンソースのログとファウンデーションモデルを用いる利点と限界を強調する。
提案手法
- 完全な学習設定 C を性能 P にマッピングする回帰子をファインチューニングした事前学習済み言語モデル f_theta で CPL をパラメータ化する。
- 入力特徴として出所、アーキテクチャ(N、層数、ヘッド数、隠れ層次元)、データ量 D、オプティマイザとハイパーパラメータを用いる。
- Chinchilla-law ベースライン ell_chinchilla(N,D) への残差を予測し、残差目標に対して MSE で学習する。
- 数値フィールドエンコーダとヘッドを更新する Stage 1 と、全パラメータを微調整する Stage 2 の2段階のファインチューニングを採用する。
- ターゲットを(i)最終的な事前学習損失と(ii)損失曲線を再構成する中間損失として予測する。
- Marin と StepLaw データセットを用いた分布内(ID)および分布外(OOD)スプリットで評価する。
- NCPL を XGBoost および Chinchilla-law ベースラインと比較し、アブレーション(バックボーンサイズ、微調整 vs scratch)を実施する。
- 設定をスイープしてハイパーパラメータを選択し、べき法則ベースラインと比較することによってハイパーパラメータ選択を実演する。

実験結果
リサーチクエスチョン
- RQ1完全な学習設定から事前学習性能への写像(C → P)を学習するニューロンネットワーク、特にファインチューニング済み言語モデルは可能か。
- RQ2NCPL は最終損失と損失曲線の予測において、設定に依存しないスケーリング法(例:Chinchilla)より予測精度を向上させるか。
- RQ3NCPL は共同ハイパーパラメータ調整を可能にし、ID および OOD 設定で手動設計のハイパーパラメータスケーリングベースラインを上回るか。
- RQ4NCPL は訓練データセット以上の大規模な計算量へどの程度一般化できるか、損失曲線のようなより豊かなターゲットへ拡張できるか。
- RQ5オープンソースのログからハイパーパラメータ間の相互作用(例:オプティマイザとウェイトデカイ)を NCPL はどの程度発見できるか。
主な発見
- NCPL は最終損失予測において、ID および OOD データの両方で Chinchilla ベースラインより予測誤差が小さく、順位相関が高い。
- NCPL はハイパーパラメータの共同調整を可能にし、専用のハイパーパラメータスケーリング法と競合する性能を達成する。
- NCPL は最終損失だけでなく損失曲線全体を予測でき、オプティマイザやハイパーパラメータ設定を跨いでも再現性がある。
- NCPL は非自明なハイパーパラメータ間の相互作用、例えばオプティマイザ固有のウェイトデカイ効果を定性的に学習する。
- ファウンデーションモデルを基盤とする回帰器をファインチューニングする方が、スクラッチ学習や非ニューラルベースラインより、多様で異質な設定に対してより強い結果を示す。
- NCPL はトレーニングセットより最大10倍の計算量を要する OOD 実行にも一般化する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。