QUICK REVIEW

[논문 리뷰] A Simple Convergence Proof of Adam and Adagrad

Alexandre Défossez, Léon Bottou|arXiv (Cornell University)|2020. 03. 05.

Stochastic Gradient Optimization Techniques참고 문헌 18인용 수 32

한 줄 요약

이 논문은 매끄럽고 가능하면 비볼록한 목적함수에서 Adagrad와 Adam(모멘텀 유무)에 대해 간단하고 통합된 수렴 증명을 제시하며, 명시적 그래디언트-노름 한계와 모멘텀에 대한 개선된 의존성을 제공합니다. Adam이 적절한 매개변수하에서 Adagrad의 속도와 일치할 수 있음을 보여주고, 기본 Adam이 수렴하지 않는 이유를 설명합니다.

ABSTRACT

We provide a simple proof of convergence covering both the Adam and Adagrad adaptive optimization algorithms when applied to smooth (possibly non-convex) objective functions with bounded gradients. We show that in expectation, the squared norm of the objective gradient averaged over the trajectory has an upper-bound which is explicit in the constants of the problem, parameters of the optimizer, the dimension $d$, and the total number of iterations $N$. This bound can be made arbitrarily small, and with the right hyper-parameters, Adam can be shown to converge with the same rate of convergence $O(d\ln(N)/\sqrt{N})$. When used with the default parameters, Adam doesn't converge, however, and just like constant step-size SGD, it moves away from the initialization point faster than Adagrad, which might explain its practical success. Finally, we obtain the tightest dependency on the heavy ball momentum decay rate $β_1$ among all previous convergence bounds for non-convex Adam and Adagrad, improving from $O((1-β_1)^{-3})$ to $O((1-β_1)^{-1})$.

연구 동기 및 목표

매끄럽고 가능하면 비볼록한 목적함수에서 Adagrad와 Adam(모멘텀 유무)의 수렴 보장을 동기 부여하고 증명한다.
최적화 경로를 따라 기대 제곱 그래디언트 노름의 명시적 상한을 제공한다.
하이퍼파라미터(학습률, 모멘텀, 및 beta 매개변수)가 수렴성과 속도에 미치는 영향을 명확히 한다.
일반적인 분석 프레임워크 하에서 Adagrad와 Adam을 비교하고 기본 매개변수의 실용적 함의를 논의한다.

제안 방법

좌표별 적응 스텝과 그래디언트의 제곱에 대한 지수이동평균을 사용하는 일관된 확률적 최적화 설정을 사용한다.
Adagrad와 Adam을 공통 업데이트 규칙으로 형식화하고 m_n 보정항을 제거한 단순화된 Adam 버전을 (Equation 5)로 제시한다.
β1에 의존하는 가중치로 정의된 무작위 반복 τ에서 기대 제곱 그래디언트 노름을 분석하여 비볼록 설정에 대한 수렴 한계를 도출한다.
감소 방향 편차를 한정하는 핵심 보조정리(Lemma 5.1)와 로그형 합을 통한 모멘텀의 누적 효과(Lemma 5.2)를 확립한다.
노모멘텀 케이스에 대해 Theorems 1–2를, 모멘텀이 있는 경우 Theorems 3–4를 증명하며 차원 d, 그래디언트 상한 R, 매끄러움 L에 대한 의존성을 포함한다.
특정 매개변수 구간에서 Adam과 Adagrad가 동등한 수렴 속도를 달성하는지와 기본 매개변수의 실무적 함의를 논의한다.

실험 결과

연구 질문

RQ1Adagrad와 Adam이 매끄럽고 가능하면 비볼록한 목적함수에서 경계가 있는 그래디언트를 가진 경우 임계점으로 수렴하는가?
RQ2경로를 따라 기대 제곱 그래디언트 노름에 대한 명시적 한계는 무엇이며, 그것이 문제 상수(차원, 그래디언트 상한, 매끄러움) 및 최적화 알고리즘 매개변수에 어떻게 의존하는가?
RQ3모멘텀(β1)이 수렴 속도와 상수에 어떤 영향을 미치며, 이전 결과에 비해 이러한 의존성을 더 엄밀히 할 수 있는가?
RQ4어떤 매개변수 설정에서 Adam과 Adagrad가 동일한 수렴 속도를 달성하며, 실무에서 기본 Adam 매개변수가 수렴에 어떤 영향을 미치는가?
RQ5일부 보정항을 제거한 Adam의 단순화 변형이 또렷한 속도 보장을 여전히 제공하는가?

주요 결과

매끄하고 비볼록한 설정에서 Adagrad와 Adam이 그래디언트의 기대 제곱 노름에 대한 명시적 한계를 갖고 임계점으로 수렴이 확립된다.
Adagrad는 모든 스텝 크기에 대해 반복마다 평균 그래디언트 노름에 대해 표준적인 O(log N / sqrt(N)) 속도를 달성한다.
Adam은 적절한 스텝 크기와 감소 매개변수의 선택하에 같은 속도를 달성하며 AMSGrad 없이도 수렴할 수 있다.
수렴 bound의 heavy-ball 모멘텀 소멸률 β1에 대한 의존성이 이전 연구의 O((1−β1)−3) 또는 O((1−β1)−5)에서 O((1−β1)−1)로 개선되었다.
모멘텀과 함께 β1을 증가시키면 경계가 악화하지만, 통합 분석은 특정 구간에서 Adagrad에 거의 동일한 거시적 해를 보여주며 실용적 모멘텀 이점을 설명한다.
또한 finite horizons에서 Adam과 Adagrad가 매칭된 매개변수 스케일링(alpha ~ N^−1/2, beta2 ~ 1 − 1/N) 하에서 실질적으로 쌍둥이임을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.