QUICK REVIEW

[论文解读] Quasi-hyperbolic momentum and Adam for deep learning

Jerry Ma, Denis Yarats|arXiv (Cornell University)|Oct 16, 2018

Stochastic Gradient Optimization Techniques参考文献 45被引用 48

一句话总结

引入 Quasi-hyperbolic Momentum (QHM) 及其 Adam 变体 (QHAdam)，在普通 SGD 与动量/Adam 成分之间进行简单的两项插值，在各种深度学习任务中显示出更好的稳定性和性能。

ABSTRACT

Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.

研究动机与目标

动机：在随机优化中利用动量加速，并解决 SGD 更新中的方差问题。
将 QHM 作为 plain SGD 与动量之间的简单插值，以控制更新滞后。
展示 QHM 能恢复或与许多现有优化算法密切相关（如 NAG、PID、SNV、AccSGD），并刻画其可恢复的算法集合。
提出 QHAdam 作为基于 QHM 的 Adam 变体，并在各任务中展示实际好处。
为从业者提供实际指南和开源代码，便于采用 QHM/QHAdam。

提出的方法

定义 QHM 更新：g_{t+1} 兮 β g_t + (1-β) ∇L̂_t(θ_t) 以及 θ_{t+1} 兮 θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}].
解释 ν 作为即时折扣的含义，即将 SGD 与动量混合。
将 QHM 与 NAG、PID、SNV、AccSGD、Robust Momentum 和 Triple Momentum 联系起来，展示其可恢复性与关系。
通过用准超调项替换 Adam 的矩估计量引入 QHAdam，详细给出更新规则，并在 ν1=ν2=1 时显示其等价于 Adam，在其他设定下则等价于 RMSProp/NAdam。
提供实用的调参指南，并讨论收敛性/鲁棒性影响，辅以实证实验。

实验结果

研究问题

RQ1QHM 是否相较于传统动量和 NAG 在标准 DL 任务中提升优化效率和稳定性？
RQ2即时折扣因子 ν 如何影响随机设置中动量的方差/滞后？
RQ3QHM 与其他两态优化算法之间的关系如何，QHM 是否能够高效地恢复它们？
RQ4QHAdam 变体在稳定性和性能方面是否相比 Adam 在多领域提供实际好处？

主要发现

QHM 与 QHAdam 在多项任务中与普通动量/NAG/Adam 相比，持续提升了训练与验证性能。
默认配置 ν=0.7 且 β=0.999 往往优于对 NAG 或 Adam 的优化参数化。
在图像翻译（WMT16 EN-DE）中，QHAdam 提供了 state-of-the-art BLEU 29.45 且稳定性提升。
使用 QHM/QHAdam 的案例研究显示在图像识别、语言建模、强化学习和神经机器翻译等领域更快收敛或获得更强的性能。
QH 算法计算成本低、概念简单，提供了实用的调参指南。
已发布 QHM/QHAdam 的代码（qhoptim 仓库）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。