QUICK REVIEW

[论文解读] A Simple Convergence Proof of Adam and Adagrad

Alexandre Défossez, Léon Bottou|arXiv (Cornell University)|Mar 5, 2020

Stochastic Gradient Optimization Techniques参考文献 18被引用 32

一句话总结

本文提供一个简单的、统一的收敛性证明，适用于 Adagrad 和 Adam（带/不带动量）在光滑、可能非凸目标上的收敛性，给出明确的梯度范数界和对动量依赖的改进。它表明在合适的参数下 Adam 的速率可以匹配 Adagrad，并解释为何默认的 Adam 可能不收敛。

ABSTRACT

We provide a simple proof of convergence covering both the Adam and Adagrad adaptive optimization algorithms when applied to smooth (possibly non-convex) objective functions with bounded gradients. We show that in expectation, the squared norm of the objective gradient averaged over the trajectory has an upper-bound which is explicit in the constants of the problem, parameters of the optimizer, the dimension $d$, and the total number of iterations $N$. This bound can be made arbitrarily small, and with the right hyper-parameters, Adam can be shown to converge with the same rate of convergence $O(d\ln(N)/\sqrt{N})$. When used with the default parameters, Adam doesn't converge, however, and just like constant step-size SGD, it moves away from the initialization point faster than Adagrad, which might explain its practical success. Finally, we obtain the tightest dependency on the heavy ball momentum decay rate $β_1$ among all previous convergence bounds for non-convex Adam and Adagrad, improving from $O((1-β_1)^{-3})$ to $O((1-β_1)^{-1})$.

研究动机与目标

在光滑、可能非凸的目标上，动机并证明自适应方法 Adagrad 和 Adam（含/不含动量）的收敛性保证。
给出沿优化轨迹的期望平方梯度范数的明确上界。
阐明超参数（学习率、动量以及 beta 参数）如何影响收敛性和速率。
在共同的分析框架下比较 Adagrad 和 Adam，并讨论默认参数的实际影响。

提出的方法

使用具有逐坐标自适应步长和平方梯度的指数加权平均的统一随机优化设定。
用共同的更新规则表述 Adagrad 和 Adam，并通过去掉 m_n 修正项（方程式 5）来得到一个简化的 Adam 变体。
通过分析随机迭代 τ 处的期望平方梯度范数（以依赖于 β1 的权重定义）来推导非凸情形的收敛界。
建立关键引理，界定下降方向偏离（引理 5.1）以及通过对数型和的动量累积效应（引理 5.2）。
证明无动量情形的定理 1–2 与有动量情形的定理 3–4，并包含对维度 d、梯度界限 R 与光滑度 L 的依赖。
讨论有限 horizon 下的最优行为以及在特定参数区间内 Adam 与 Adagrad 的等价性。

实验结果

研究问题

RQ1在光滑、可能非凸且梯度有界的目标下，Adagrad 和 Adam 是否收敛到一个临界点？
RQ2沿着轨迹的期望平方梯度范数的显式界限是什么，它如何依赖于问题常数（维度、梯度界限、光滑性）与优化器参数？
RQ3动量（β1）如何影响收敛速率和常数，与先前结果相比这些依赖是否可以收紧？
RQ4在何种参数设置下 Adam 与 Adagrad 能达到相同的收敛速率，以及默认的 Adam 参数在实际中如何影响收敛？
RQ5简化版本的 Adam（去掉某些修正项）是否仍能在给定明确速率的情况下保证收敛？

主要发现

在非凸、光滑且梯度有界的设定下，Adagrad 和 Adam 的收敛到临界点已经建立，并给出期望平方梯度范数的显式界限。
Adagrad 在迭代的平均梯度范数上达到标准的 O(log N / sqrt(N)) 速率，适用于所有步长。
在适当的步长和衰减参数选择下，Adam 实现相同的速率，并且在没有 AMSGrad 的情况下也可收敛。
收敛界对重球动量衰减率 β1 的依赖从以往工作中的 O((1−β1)−3) 或 O((1−β1)−5) 提升到 O((1−β1)−1)。
有动量时，增大 β1 会恶化界，但统一分析在某些情形下显示出接近 Adagrad 的渐近性质，解释了实践中的动量收益。
分析还强调，在有限 horizon 下，当参数比率匹配（α ~ N^−1/2, β2 ~ 1 − 1/N）时，Adam 和 Adagrad 实质上是同源的。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。