[论文解读] Scaling Laws for Deep Learning
本论文表明深度学习的训练和剪枝在视觉和语言任务中遵循可预测的尺度定律,并提供一个从小规模测量预测性能的建设性框架,并提出走向 Nyquist 学习者以在有限数据下达到近理想泛化的方向。
Running faster will only get you so far -- it is generally advisable to first understand where the roads lead, then get a car ... The renaissance of machine learning (ML) and deep learning (DL) over the last decade is accompanied by an unscalable computational cost, limiting its advancement and weighing on the field in practice. In this thesis we take a systematic approach to address the algorithmic and methodological limitations at the root of these costs. We first demonstrate that DL training and pruning are predictable and governed by scaling laws -- for state of the art models and tasks, spanning image classification and language modeling, as well as for state of the art model compression via iterative pruning. Predictability, via the establishment of these scaling laws, provides the path for principled design and trade-off reasoning, currently largely lacking in the field. We then continue to analyze the sources of the scaling laws, offering an approximation-theoretic view and showing through the exploration of a noiseless realizable case that DL is in fact dominated by error sources very far from the lower error limit. We conclude by building on the gained theoretical understanding of the scaling laws' origins. We present a conjectural path to eliminate one of the current dominant error sources -- through a data bandwidth limiting hypothesis and the introduction of Nyquist learners -- which can, in principle, reach the generalization error lower limit (e.g. 0 in the noiseless case), at finite dataset size.
研究动机与目标
- 理解在最先进任务中,一般化误差如何随数据量和模型容量的变化而进行尺度化。
- 从小规模测量中开发一个建设性、可预测的模型性能规律。
- 将尺度分析扩展到剪枝与压缩,以为部署决策提供信息。
- 通过基于近似的视角探究尺度定律的起源。
- 提出未来方向,通过数据带宽限制和 Nyquist 学习者来降低误差。
提出的方法
- 通过经验性刻画,在多样的数据集(视觉与语言)以及不同模型尺度下的一般化误差。
- 拟合一个联合函数形式(尺度定律),描述误差作为数据量和模型大小的函数。
- 将尺度框架扩展到迭代幅度剪枝(IMP),以建模被剪枝的网络。
- 在近似理论框架内分析误差来源(可实现性、不确定性、学习缺陷、噪声)。
- 构建一个可实现的教师-学生设置,以隔离误差来源并验证预测。
- 提出理论路径(数据带宽上限、Nyquist 学习者)以接近较低的一般化误差界限。
实验结果
研究问题
- RQ1最先进模型中,一般化误差、数据规模和模型容量之间的函数关系是什么?
- RQ2是否存在一个建设性、可预测的尺度定律,能够在不同数据规模下指定达到目标误差所需的精确模型配置?
- RQ3剪枝(IMP)如何影响一般化误差,是否存在一个联合尺度定律可以描述所有剪枝后的网络配置?
- RQ4深度学习一般化中哪些误差来源占主导,以及它们如何影响尺度行为?
- RQ5在有限数据下,哪些理论条件能够实现接近最优的一般化(Nyquist 学习者)?
主要发现
- 一个联合尺度定律能够准确描述在视觉与语言任务中,一般化误差作为数据量和模型大小的函数。
- 通过迭代幅度剪枝的剪枝遵循可预测的尺度定律,并且存在一个不变量,使误差在深度、宽度和剪枝密度之间保持可交换而不改变误差。
- 以近似为中心的观点将不确定性和学习缺陷识别为在研究的区间中超过可实现性的主导误差来源。
- 一个可实现的师生设置表明,可实现性并非误差的唯一驱动因素,强化了对其他主导误差来源的论证。
- 面向 Nyquist 学习者的一个设想路径表明,数据带宽限制可能使在有限数据下达到更低的误差界限成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。