Skip to main content
QUICK REVIEW

[论文解读] Online Learning Rate Adaptation with Hypergradient Descent

Atılım Güneş Baydin, Robert Cornish|arXiv (Cornell University)|Mar 14, 2017
Stochastic Gradient Optimization Techniques参考文献 27被引用 77
一句话总结

论文引入超梯度下降以在线自适应全局学习率,在收敛方面改善 SGD、带 Nesterov 动量的 SGD 以及 Adam,同时减少手动学习率调参。

ABSTRACT

We introduce a general method for improving the convergence rate of gradient-based optimizers that is easy to implement and works well in practice. We demonstrate the effectiveness of the method in a range of optimization problems by applying it to stochastic gradient descent, stochastic gradient descent with Nesterov momentum, and Adam, showing that it significantly reduces the need for the manual tuning of the initial learning rate for these commonly used algorithms. Our method works by dynamically updating the learning rate during optimization using the gradient with respect to the learning rate of the update rule itself. Computing this "hypergradient" needs little additional computation, requires only one extra copy of the original gradient to be stored in memory, and relies upon nothing more than what is provided by reverse-mode automatic differentiation.

研究动机与目标

  • 说明在基于梯度的优化器中自动学习率自适应的必要性。
  • 提出一种通用、计算和内存高效的方法,使用超梯度在线更新学习率。
  • 通过将超梯度下降应用于标准优化问题中的 SGD、SGDN 和 Adam 来演示该方法。
  • 展示超梯度下降如何降低对初始学习率的依赖并加速收敛。

提出的方法

  • 通过对学习率使用目标函数对学习率的导数进行梯度下降,来定义超梯度下降。
  • 推导基本的 HD 更新:α_t = α_{t-1} - β ∂f(θ_{t-1})/∂α 且 θ_t = θ_{t-1} - α_t ∇f(θ_{t-1}),其中超梯度 ∂f(θ_{t-1})/∂α = ∇f(θ_{t-1}) · ( -∇f(θ_{t-2}) ).
  • 使用一个额外的梯度拷贝和点积来计算超梯度,尽量减少内存和计算开销。
  • 为 SGD(SGD-HD)、带 Nesterov 动量的 SGD(SGDN-HD)以及 Adam(Adam-HD)实例化 HD 变体,包括加法和乘法两种超梯度更新形式。
  • 提供实现映射:SGD-HD、SGDN-HD、Adam-HD 对应于将常规算法中的底层更新语句替换为基于超梯度的学习率更新。
  • 讨论潜在扩展(转向固定 α∞、更高阶的超梯度)以及经验评估设置。

实验结果

研究问题

  • RQ1通过超梯度的在线学习率自适应是否在常见的基于梯度的优化器中改善收敛?
  • RQ2在初始学习率 α_0 的影响下,SGD、SGDN 和 Adam 及其超梯度下降是否不太敏感?
  • RQ3与它们的非 HD 对手相比,HD 对神经网络的训练和验证性能有何影响?
  • RQ4在大规模设置中应用 HD 的实际注意事项(内存、计算、超梯度学习率 β)是什么?

主要发现

  • HD 变体在逻辑回归、MNIST 的多层网络以及 CIFAR-10 的 VGG 风格网络上,一致地提升或至少等同于非 HD 的表现。
  • 学习率 α_t 通常最初上升随后衰减到一个较小的值,从而实现自适应几何。
  • 在给定未调的 α_0 下,SGD-HD、SGDN-HD 和 Adam-HD 使损失轨迹更接近于若调参了 α_0 时的最优轨迹。
  • Adam-HD 往往在训练上获得显著更好的性能,甚至在验证上也有时更好。
  • HD 降低了为找到有效学习率而进行的大规模超参数搜索(网格/随机/贝叶斯)的需求。
  • 该方法对内存友好,只需要一个额外的梯度拷贝,并且无需额外的自动微分机制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。