Skip to main content
QUICK REVIEW

[论文解读] Deep Learning Scaling is Predictable, Empirically

Joel Hestness, Sharan Narang|arXiv (Cornell University)|Dec 1, 2017
Topic Modeling参考文献 33被引用 417
一句话总结

本文通过实证研究在四个深度学习领域中,泛化误差和模型规模如何随训练数据规模而变化,显示出带有领域相关指数的幂律学习曲线,以及模型规模呈现非线性增速的次线性增长。

ABSTRACT

Deep learning (DL) creates impactful advances following a virtuous recipe: model architecture search, creating large training data sets, and scaling computation. It is widely believed that growing training sets and models should improve accuracy and result in better products. As DL application domains grow, we would like a deeper understanding of the relationships between training set size, computational scale, and model accuracy improvements to advance the state-of-the-art. This paper presents a large scale empirical characterization of generalization error and model size growth as training sets grow. We introduce a methodology for this measurement and test four machine learning domains: machine translation, language modeling, image processing, and speech recognition. Our empirical results show power-law generalization error scaling across a breadth of factors, resulting in power-law exponents---the "steepness" of the learning curve---yet to be explained by theoretical work. Further, model improvements only shift the error but do not appear to affect the power-law exponent. We also show that model size scales sublinearly with data size. These scaling relationships have significant implications on deep learning research, practice, and systems. They can assist model debugging, setting accuracy targets, and decisions about data set growth. They can also guide computing system design and underscore the importance of continued computational scaling.

研究动机与目标

  • 了解在不同DL领域中,泛化误差如何随训练集大小变化而变化。
  • 描述随着训练数据增加,所需模型规模如何增长。
  • 确定扩展指数是否在不同模型和领域之间保持一致。
  • 基于尺度规律,为数据收集、模型设计和计算资源规划提供实际指南。

提出的方法

  • 在逐步增大的训练数据分块上,对最先进模型的超参数简化变体进行训练。
  • 将学习曲线拟合为带常数项的幂律形式,并提取指数。
  • 探索在神经机器翻译、语言建模、图像分类和语音识别中的领域特定尺度规律。
  • 比较模型规模如何随数据规模增长并评估次线性增长模式。
  • 通过去除正则化来进行对照实验,以观察容量驱动的效应。
  • 使用蒙特卡洛网格搜索在不同数据分块上确定最佳拟合模型。

实验结果

研究问题

  • RQ1在多领域和多种架构的深度学习中,泛化误差曲线是否遵循幂律?
  • RQ2随着训练集规模,拟合数据所需的模型规模如何变化,增长是否为次线性?
  • RQ3对于不同领域,尺度指数是否对模型类型、优化器和损失度量具有鲁棒性?
  • RQ4尺度规律在数据与计算资源规划方面有哪些实际意义?

主要发现

  • 泛化误差在所有测试领域中均随训练规模呈幂律缩放,指数(beta_g)通常在-0.07到-0.35之间,幅度比经典理论小。
  • 模型规模随数据规模呈现次线性增长,指数(beta_p) 根据领域通常在0.5到1.0之间。
  • 组合(最佳拟合)学习曲线可以将幂律区域扩展到超出单一模型曲线,得到更小的有效beta(如在NMT中约为-0.128)。
  • 不同领域产生不同的截距和指数,但同一领域在不同模型和优化器下学习曲线的斜率通常是一致的。
  • 随着数据增长,模型从小数据区域转向幂律区域,最终趋向不可约误差极限(贝叶斯误差)。
  • 结果支持使用尺度曲线来指导数据收集、模型设计和计算资源配置。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。