Skip to main content
QUICK REVIEW

[论文解读] Quasi-hyperbolic momentum and Adam for deep learning

Jerry Ma, Denis Yarats|arXiv (Cornell University)|Oct 16, 2018
Stochastic Gradient Optimization Techniques参考文献 45被引用 48
一句话总结

引入 Quasi-hyperbolic Momentum (QHM) 及其 Adam 变体 (QHAdam),在普通 SGD 与动量/Adam 成分之间进行简单的两项插值,在各种深度学习任务中显示出更好的稳定性和性能。

ABSTRACT

Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.

研究动机与目标

  • 动机:在随机优化中利用动量加速,并解决 SGD 更新中的方差问题。
  • 将 QHM 作为 plain SGD 与动量之间的简单插值,以控制更新滞后。
  • 展示 QHM 能恢复或与许多现有优化算法密切相关(如 NAG、PID、SNV、AccSGD),并刻画其可恢复的算法集合。
  • 提出 QHAdam 作为基于 QHM 的 Adam 变体,并在各任务中展示实际好处。
  • 为从业者提供实际指南和开源代码,便于采用 QHM/QHAdam。

提出的方法

  • 定义 QHM 更新:g_{t+1} 兮 β g_t + (1-β) ∇L̂_t(θ_t) 以及 θ_{t+1} 兮 θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}].
  • 解释 ν 作为即时折扣的含义,即将 SGD 与动量混合。
  • 将 QHM 与 NAG、PID、SNV、AccSGD、Robust Momentum 和 Triple Momentum 联系起来,展示其可恢复性与关系。
  • 通过用准超调项替换 Adam 的矩估计量引入 QHAdam,详细给出更新规则,并在 ν1=ν2=1 时显示其等价于 Adam,在其他设定下则等价于 RMSProp/NAdam。
  • 提供实用的调参指南,并讨论收敛性/鲁棒性影响,辅以实证实验。

实验结果

研究问题

  • RQ1QHM 是否相较于传统动量和 NAG 在标准 DL 任务中提升优化效率和稳定性?
  • RQ2即时折扣因子 ν 如何影响随机设置中动量的方差/滞后?
  • RQ3QHM 与其他两态优化算法之间的关系如何,QHM 是否能够高效地恢复它们?
  • RQ4QHAdam 变体在稳定性和性能方面是否相比 Adam 在多领域提供实际好处?

主要发现

  • QHM 与 QHAdam 在多项任务中与普通动量/NAG/Adam 相比,持续提升了训练与验证性能。
  • 默认配置 ν=0.7 且 β=0.999 往往优于对 NAG 或 Adam 的优化参数化。
  • 在图像翻译(WMT16 EN-DE)中,QHAdam 提供了 state-of-the-art BLEU 29.45 且稳定性提升。
  • 使用 QHM/QHAdam 的案例研究显示在图像识别、语言建模、强化学习和神经机器翻译等领域更快收敛或获得更强的性能。
  • QH 算法计算成本低、概念简单,提供了实用的调参指南。
  • 已发布 QHM/QHAdam 的代码(qhoptim 仓库)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。