Skip to main content
QUICK REVIEW

[论文解读] YellowFin and the Art of Momentum Tuning

Jian Zhang, Ioannis Mitliagkas|arXiv (Cornell University)|Jun 12, 2017
Teaching and Learning Programming参考文献 25被引用 63
一句话总结

本论文提出 YellowFin,一种自动调优 momentum SGD 的调参器,能同时调整学习率和动量,相比 Adam 具有更快的收敛以及在同步和异步设置中的鲁棒性。

ABSTRACT

Hyperparameter tuning is one of the most time-consuming workloads in deep learning. State-of-the-art optimizers, such as AdaGrad, RMSProp and Adam, reduce this labor by adaptively tuning an individual learning rate for each variable. Recently researchers have shown renewed interest in simpler methods like momentum SGD as they may yield better test metrics. Motivated by this trend, we ask: can simple adaptive methods based on SGD perform as well or better? We revisit the momentum SGD algorithm and show that hand-tuning a single learning rate and momentum makes it competitive with Adam. We then analyze its robustness to learning rate misspecification and objective curvature variation. Based on these insights, we design YellowFin, an automatic tuner for momentum and learning rate in SGD. YellowFin optionally uses a negative-feedback loop to compensate for the momentum dynamics in asynchronous settings on the fly. We empirically show that YellowFin can converge in fewer iterations than Adam on ResNets and LSTMs for image recognition, language modeling and constituency parsing, with a speedup of up to 3.28x in synchronous and up to 2.69x in asynchronous settings.

研究动机与目标

  • 通过重新审视基于动量的 SGD 来减少深度学习中的超参数调优工作量。
  • 分析动量 SGD 对学习率错配和曲率变化的鲁棒性。
  • 设计并验证一个自动调参器(YellowFin),能够在运行时自适应学习率和动量。
  • 扩展到带闭环的异步训练,以补偿来自异步的额外动量。
  • 在多样的模型(ResNets 和 LSTMs)及任务上评估性能(图像识别、语言建模、解析)。

提出的方法

  • 将动量更新建模为一个动态系统并研究动量算子 A_t。
  • 推导鲁棒性条件(谱半径),在 (1−√μ)^2 ≤ α h(x_t) ≤ (1+√μ)^2 时显示 sqrt(mu) 收敛。
  • 开发 SingleStep,以在鲁棒区域约束下从梯度统计中计算 (μ_t, α_t)。
  • 提出基于梯度的度量函数 CurvatureRange、Variance、Distance,用以估计 h_max、h_min、梯度方差 C,以及距离 D。
  • 引入自适应梯度裁剪,以在非光滑目标上稳定训练。
  • 实现闭环 YellowFin,通过针对总动量 μ_T 调整在异步设置中的算法动量。
  • 提供用于调参和基于梯度观测量的稳定性控制循环的实际实现。

实验结果

研究问题

  • RQ1具备单一调好的学习率和动量的基于动量的 SGD 是否可以在一系列模型上超越如 Adam 这类自适应优化器?
  • RQ2动量 SGD 对错配学习率和变化的曲率有多鲁棒,是否可将该鲁棒性用于自动调参?
  • RQ3自动调参器(YellowFin)是否能在同步和异步训练中可靠地即时调整动量和学习率?
  • RQ4引入闭环动量控制是否能缓解异步引起的动量并加速收敛?
  • RQ5相比调参 Adam 和手工调参的动量 SGD,在 CNN 和 RNN 的实际加速和稳定性方面能否证明?

主要发现

  • 手调学习率的动量 SGD 可以在大量模型上实现比 Adam 更快的收敛。
  • YellowFin 在同步设置下相对于 Adam 最多实现 3.28x 的加速,在异步设置下对 ResNets 和 LSTMs 最多实现 2.69x。
  • YellowFin 不需要手工调参即可达到或超过手工调参的动量 SGD,且在多任务(图像识别、语言建模、解析)中通常优于调参 Adam。
  • 调参器在鲁棒区域内工作,确保动量算子在各步与各方向上的谱半径为 sqrt(mu) 的一致性。
  • 自适应梯度裁剪在对抗梯度爆炸的目标中稳定训练,提升非光滑任务的性能。
  • 闭环 YellowFin 可以显著加速异步训练,通过补偿异步引起的动量,减少达到目标性能所需的迭代次数。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。