Skip to main content
QUICK REVIEW

[论文解读] On the Convergence of Adam and Beyond

Sashank J. Reddi, Satyen Kale|arXiv (Cornell University)|Apr 19, 2019
Theology and Philosophy of Evil被引用 1,613
一句话总结

论文表明 Adam 等类似的指数移动平均方法由于短期记忆可能导致收敛失败,给出一个凸的反例,并提出具有收敛性保证的 AMSGrad 变体。

ABSTRACT

Several recently proposed stochastic optimization methods that have been successfully used in training deep networks such as RMSProp, Adam, Adadelta, Nadam are based on using gradient updates scaled by square roots of exponential moving averages of squared past gradients. In many applications, e.g. learning with large output spaces, it has been empirically observed that these algorithms fail to converge to an optimal solution (or a critical point in nonconvex settings). We show that one cause for such failures is the exponential moving average used in the algorithms. We provide an explicit example of a simple convex optimization setting where Adam does not converge to the optimal solution, and describe the precise problems with the previous analysis of Adam algorithm. Our analysis suggests that the convergence issues can be fixed by endowing such algorithms with `long-term memory' of past gradients, and propose new variants of the Adam algorithm which not only fix the convergence issues but often also lead to improved empirical performance.

研究动机与目标

  • 动机:解决在训练深度网络时观察到的类似 Adam 的自适应方法的非收敛问题。
  • 目标:识别与指数移动平均相关的收敛失败原因。
  • 目标:提出具有对过去梯度长期记忆的算法,在凸设置下保证收敛。

提出的方法

  • 框架将在线凸优化与随机经验风险最小化(ERM)结合起来,以研究自适应方法。
  • 分析指数移动平均(Adam/RMSprop)如何通过 Gamma_t 量导致非收敛。
  • 构建凸反例,表明 Adam 可能具有非零平均后悔(regret)。
  • 提出 AMSGrad,其通过维持 v_t 的运行最大值来确保学习率非增。
  • 在凸性和有界梯度假设下对 AMSGrad 的收敛性分析。
  • 在合成数据和标准机器学习任务上的经验评估,展示性能差异。

实验结果

研究问题

  • RQ1在简单的凸设置中,Adam 和 RMSprop 是否收敛到最优解?
  • RQ2指数移动平均如何影响自适应方法的收敛性?
  • RQ3像 AMSGrad 这样的变体在保留实际性能的同时是否能保证收敛?
  • RQ4在凸设置中,AMSGrad 相对于 Adam 的理论后悔界是多少?
  • RQ5在标准机器学习任务上,经验结果是否与理论发现一致?

主要发现

  • 在在线凸优化设定中,Adam 可能具有非零的平均后悔。
  • 对于任意常数 beta1、beta2,若 beta1 < sqrt(beta2),Adam 在凸问题中可能收敛到次优点。
  • 通过 AMSGrad 引入长期记忆机制可实现学习率非增和收敛保证。
  • AMSGrad 在某些数据情形下提供的后悔界可能优于 O(sqrt(dT))。
  • 实证结果表明,在 MNIST 逻辑回归与 CIFAR-10 卷积神经网络上,AMSGrad 在收敛性和鲁棒性方面优于 Adam。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。