[论文解读] Configuration-to-Performance Scaling Law with Neural Ansatz
NCPL 使用微调后的语言模型将完整的预训练配置映射到训练结果,从而实现最终损失和损失曲线的准确预测,并在约束条件下帮助联合超参数调优。
Researchers build scaling laws to forecast the training performance of expensive large-scale runs with larger model size N and data size D. These laws assume that other training hyperparameters are optimally chosen, which can require significant effort and, in some cases, be impossible due to external hardware constraints. To improve predictability across a broader set of hyperparameters and enable simpler tuning at scale, we propose learning a extit{Configuration-to-Performance Scaling Law} (CPL): a mapping from the extit{full training configuration} to training performance. Because no simple functional form can express this mapping, we parameterize it with a large language model (LLM), and fit it with diverse open-source pretraining logs across multiple sources, yielding a extit{Neural} Configuration-to-Performance Scaling Law (NCPL). NCPL accurately predicts how training configurations influence the final pretraining loss, achieving 20-40% lower prediction error than the configuration-agnostic Chinchilla law and generalizing to runs using up to 10 x more compute than any run in the training set. It further supports joint tuning of multiple hyperparameters with performance comparable to hyperparameter scaling law baselines. Finally, NCPL naturally and effectively extends to richer prediction targets such as loss-curve prediction.
研究动机与目标
- 在多样化超参数条件下预测预训练模型性能的必要性,而无需穷举调参的动机。
- 提出一个基于神经网络(LLM)的 Configuration-to-Performance Scaling Law(CPL),将配置映射到性能。
- 展示 NCPL 在预测最终损失和损失曲线方面的能力,并实现联合超参数优化。
- 展示对分布外(out-of-distribution)模型规模的泛化以及对更大计算规模的外推。
- 强调使用开源日志和基础模型进行 CPL 的优势与局限性。
提出的方法
- 用一个预训练语言模型作为回归器 f_theta 进行微调,以将完整训练配置 C 映射到性能 P, Parameterize CPL。
- 使用输入特征包括来源、架构(N、层数、注意头数、隐藏维度)、数据规模 D、优化器与超参数。
- 对相对于 Chinchilla-law 基线 ell_chinchilla(N,D) 的残差进行预测,并在残差目标上使用均方误差(MSE)进行训练。
- 采用两阶段微调方案(阶段1:更新数值字段编码器与头部;阶段2:微调整个参数)。
- 将目标值预测为(i)最终预训练损失和(ii)中间损失以重建损失曲线。
- 在分布内(ID)和分布外(OOD)分割上使用 Marin 和 StepLaw 数据集进行评估。
- 将 NCPL 与 XGBoost 和 Chinchilla-law 基线进行比较,并进行消融实验(骨干网大小、微调 vs 从头训练)。
- 通过遍历配置并与幂律基线进行比较来演示超参数选择。

实验结果
研究问题
- RQ1一个神经网络,特别是经过微调的语言模型,是否能够学习从完整训练配置到预训练性能的映射(C → P)?
- RQ2在预测最终损失和损失曲线时,NCPL 是否能比与配置无关的标度法(如 Chinchilla)提供更高的预测准确性?
- RQ3NCPL 是否能实现联合超参数调优并在 ID 与 OOD 设置中超越人工设计的超参数标度基线?
- RQ4NCPL 在大于训练集的更大计算资源下的外推能力有多大,以及对于像损失曲线这样的更丰富目标的外推能力?
- RQ5从开源日志中,NCPL 能发现超参数之间的交互(如优化器与权重衰减)有哪些?
主要发现
- 在最终损失预测方面,NCPL 在 ID 与 OOD 数据上对比 Chinchilla 基线具有更低的预测误差和更高的排名相关性。
- NCPL 能实现超参数的联合调优,并在性能上与专门的超参数标度法相当。
- NCPL 能预测整个损失曲线,而不仅是最终损失,跨越多种优化器和超参数设置。
- NCPL 定性地学习到超参数之间的非平凡交互,例如特定优化器下的权重衰减效应。
- 对基础模型回归器进行微调,在多样、异构的配置上比从头训练或非神经基线取得更强的结果。
- NCPL 能对比训练集中计算量最多十倍的 OOD 运行进行泛化。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。