[论文解读] Revisiting Neural Scaling Laws in Language and Vision
本论文提出一种新的缩放定律估计器 M4,能够比以往方法在图像、神经机器翻译、语言建模和 BIG-Bench 任务上更准确地外推学习曲线行为,并强调基于外推的验证胜过基于插值的拟合。
The remarkable progress in deep learning in recent years is largely driven by improvements in scale, where bigger models are trained on larger datasets for longer schedules. To predict the benefit of scale empirically, we argue for a more rigorous methodology based on the extrapolation loss, instead of reporting the best-fitting (interpolating) parameters. We then present a recipe for estimating scaling law parameters reliably from learning curves. We demonstrate that it extrapolates more accurately than previous methods in a wide range of architecture families across several domains, including image classification, neural machine translation (NMT) and language modeling, in addition to tasks from the BIG-Bench evaluation benchmark. Finally, we release a benchmark dataset comprising of 90 evaluation tasks to facilitate research in this domain.
研究动机与目标
- 推动对缩放定律进行严格的基于外推的验证,而不是依赖最佳插值拟合。
- 提出并验证一个新的缩放定律估计器 M4,以提升学习曲线外推的准确性。
- 评估不同体系结构类型和规模如何影响跨多个领域的缩放指数。
- 提供一个包含 90 个任务的公开基准数据集,以加速神经缩放定律研究。
提出的方法
- 定义四个缩放定律估计器 M1–M4,其中 M4 引入一个类似 sigmoid 的扩展,在渐近区间化为幂律。
- 通过最小化平方对数损失来拟合参数,使得某些参数可通过最小二乘法闭式求解,其他参数通过梯度下降细化。
- 通过在超出训练范畴的保留数据尺寸上测量外推 RMSE 来验证估计器。
- 在图像分类(BiT、ViT、MiX 架构)、NMT、语言建模和 BIG-Bench 任务中比较估计器。
实验结果
研究问题
- RQ1使用不同估计器能在多大程度上从学习曲线外推缩放定律的准确性?
- RQ2在多领域中,M4 是否比以往模型(M1–M3)提供更好的外推?
- RQ3在不同估计器下,架构类型和规模如何影响估计的缩放指数?
- RQ4一个共享的基准数据集(90 个任务)是否能推动跨视觉与语言的缩放定律研究?
主要发现
- 基于外推的估计器(M4,以及在某种程度上 M2)在外推性能方面优于以插值为重点的拟合(M1、M3)。
- 在超过 70% 的图像域任务中,M4 的外推优于其他方法,在多种体系结构族中表现优于替代方案。
- 在 NMT 和语言建模中,M4 产生的外推 RMSE 最小,通常比 M1–M3 低出数个数量级。
- 在 BIG-Bench 任务中,M3 和 M4 表现最好,M4 通常达到甚至超过 M3。
- 同一族内的更大架构往往具有更有利的缩放指数,并且 M4 倾向于输出比先前方法更大的指数 c 的绝对值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。