[论文解读] Scaling Laws for Neural Language Models
本文通过实证研究建立了语言模型交叉熵损失随模型规模、数据集规模和计算量的幂律缩放规律,显示对体系结构的依赖极小,并且在七个数量级上具有强且可迁移的缩放行为。
We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.
研究动机与目标
- 研究语言模型性能如何随模型规模、数据集规模和计算量而缩放。
- 量化Transformer语言模型中体系结构与规模的作用对比。
- 推导实际规律以预测性能并指导高效计算资源的训练。
- 在缩放下探索过拟合行为与无限数据极限。
- 提供固定计算预算下的最优分配指南。
提出的方法
- 在 WebText2 上训练不同规模的 Transformer 和 LSTM 模型(非嵌入参数约至 ~1.5B)
- 在 1024-token 上下文长度,对分布内和迁移数据集测量交叉熵损失。
- 将观测到的性能拟合到 L ∝ X^−α 的幂律缩放规律,其中 X 为 N(参数)、D(数据集大小)和 C(计算量)
- 提出组合缩放规律 L(N,D) = [ (Nc/N)^{αN/αD} + Dc/D ]^{αD} 来描述随 N 与 D 变化的过拟合。
- 定义并使用 Cmin 和 Smin 来建模在固定计算预算下的最优计算使用与训练步数。
- 分析临界批大小 Bcrit 及其与损失的关系,以优化训练效率。
实验结果
研究问题
- RQ1语言模型交叉熵损失如何随模型规模、数据集规模和计算量而缩放?
- RQ2在固定 N(非嵌入参数)时,性能对体系结构形状的依赖有多弱?
- RQ3我们能否在固定计算预算下预测最大化性能的最优计算分配?
- RQ4在 N–D 平面上,过拟合受什么影响,以及随着 D → ∞ 时 L(N,D) 的行为?
- RQ5随着模型规模增大,迁移性能与分布内性能的相关性如何?
主要发现
- 在不被其他因素瓶颈时,性能随每个尺度因子 N、D 和 C 遵循幂律。
- 模型性能强烈依赖于规模,而在较宽的范围内对体系结构形状(深度、宽度、头数)的依赖较弱。
- 在 N–D 平面上的过拟合由比率 N^{αN/αD}/D 控制,其中 αN ≈ 0.076,αD ≈ 0.103,这意味着随着 N 增大,为避免过拟合对数据的需求呈亚线性增长。
- 训练曲线呈现可预测的幂律行为,且在大致独立于模型大小,便于外推到更长的训练时间。
- 较大模型样本效率更高,达到相似性能所需的优化步数和数据更少;在固定预算下,最优计算分配偏向于提高模型规模。
- 训练的最佳批大小与临界批大小 Bcrit 一致,Bcrit(L) 近似为 B* / L^{1/αB},其中 B* ≈ 2e8,αB ≈ 0.21。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。