[论文解读] Quasi-hyperbolic momentum and Adam for deep learning
引入 Quasi-hyperbolic Momentum (QHM) 及其 Adam 变体 (QHAdam),在普通 SGD 与动量/Adam 成分之间进行简单的两项插值,在各种深度学习任务中显示出更好的稳定性和性能。
Momentum-based acceleration of stochastic gradient descent (SGD) is widely used in deep learning. We propose the quasi-hyperbolic momentum algorithm (QHM) as an extremely simple alteration of momentum SGD, averaging a plain SGD step with a momentum step. We describe numerous connections to and identities with other algorithms, and we characterize the set of two-state optimization algorithms that QHM can recover. Finally, we propose a QH variant of Adam called QHAdam, and we empirically demonstrate that our algorithms lead to significantly improved training in a variety of settings, including a new state-of-the-art result on WMT16 EN-DE. We hope that these empirical results, combined with the conceptual and practical simplicity of QHM and QHAdam, will spur interest from both practitioners and researchers. Code is immediately available.
研究动机与目标
- 动机:在随机优化中利用动量加速,并解决 SGD 更新中的方差问题。
- 将 QHM 作为 plain SGD 与动量之间的简单插值,以控制更新滞后。
- 展示 QHM 能恢复或与许多现有优化算法密切相关(如 NAG、PID、SNV、AccSGD),并刻画其可恢复的算法集合。
- 提出 QHAdam 作为基于 QHM 的 Adam 变体,并在各任务中展示实际好处。
- 为从业者提供实际指南和开源代码,便于采用 QHM/QHAdam。
提出的方法
- 定义 QHM 更新:g_{t+1} 兮 β g_t + (1-β) ∇L̂_t(θ_t) 以及 θ_{t+1} 兮 θ_t - α[(1-ν)∇L̂_t(θ_t) + ν g_{t+1}].
- 解释 ν 作为即时折扣的含义,即将 SGD 与动量混合。
- 将 QHM 与 NAG、PID、SNV、AccSGD、Robust Momentum 和 Triple Momentum 联系起来,展示其可恢复性与关系。
- 通过用准超调项替换 Adam 的矩估计量引入 QHAdam,详细给出更新规则,并在 ν1=ν2=1 时显示其等价于 Adam,在其他设定下则等价于 RMSProp/NAdam。
- 提供实用的调参指南,并讨论收敛性/鲁棒性影响,辅以实证实验。
实验结果
研究问题
- RQ1QHM 是否相较于传统动量和 NAG 在标准 DL 任务中提升优化效率和稳定性?
- RQ2即时折扣因子 ν 如何影响随机设置中动量的方差/滞后?
- RQ3QHM 与其他两态优化算法之间的关系如何,QHM 是否能够高效地恢复它们?
- RQ4QHAdam 变体在稳定性和性能方面是否相比 Adam 在多领域提供实际好处?
主要发现
- QHM 与 QHAdam 在多项任务中与普通动量/NAG/Adam 相比,持续提升了训练与验证性能。
- 默认配置 ν=0.7 且 β=0.999 往往优于对 NAG 或 Adam 的优化参数化。
- 在图像翻译(WMT16 EN-DE)中,QHAdam 提供了 state-of-the-art BLEU 29.45 且稳定性提升。
- 使用 QHM/QHAdam 的案例研究显示在图像识别、语言建模、强化学习和神经机器翻译等领域更快收敛或获得更强的性能。
- QH 算法计算成本低、概念简单,提供了实用的调参指南。
- 已发布 QHM/QHAdam 的代码(qhoptim 仓库)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。