QUICK REVIEW

[논문 리뷰] On the Convergence of Stochastic Gradient Descent with Adaptive Stepsizes

Xiaoyu Li, Francesco Orabona|arXiv (Cornell University)|2018. 05. 21.

Stochastic Gradient Optimization Techniques인용 수 107

한 줄 요약

이 논문은 generalized AdaGrad-스타일 적응 학습률을 갖는 SGD를 분석하여 비볼록 및 볼록 설정 모두에서 거의 확실한 제로 그래디언트 수렴을 보이고, gradient 노이즈에 적응하는 적응적 유한 시간 속도를 제시하며, GD와 SGD 사이를 보간하면서 노드노이즈에 적응한다.

ABSTRACT

Stochastic gradient descent is the method of choice for large scale optimization of machine learning objective functions. Yet, its performance is greatly variable and heavily depends on the choice of the stepsizes. This has motivated a large body of research on adaptive stepsizes. However, there is currently a gap in our theoretical understanding of these methods, especially in the non-convex setting. In this paper, we start closing this gap: we theoretically analyze in the convex and non-convex settings a generalized version of the AdaGrad stepsizes. We show sufficient conditions for these stepsizes to achieve almost sure asymptotic convergence of the gradients to zero, proving the first guarantee for generalized AdaGrad stepsizes in the non-convex setting. Moreover, we show that these stepsizes allow to automatically adapt to the level of noise of the stochastic gradients in both the convex and non-convex settings, interpolating between $O(1/T)$ and $O(1/\\sqrt{T})$, up to logarithmic terms.

연구 동기 및 목표

SGD를 위한 적응 학습률을 볼록/경계 도메인 가정 너머로 동기화하고 분석한다.
일반화된 AdaGrad-스타일 학습률로 볼록 및 비볼록 설정에서 그래디언트의 거의 확실한 제로 수렴을 입증한다.
적응 학습률이 그래디언트 노이즈 수준에 자동으로 적응하여 GD와 SGD 속도 사이를 보간한다.

제안 방법

global 학습률 eta_t = alpha / (beta + sum_{i=1}^{t-1} ||g(x_i, xi_i)||^2)^{1/2 + epsilon} 및 coordinate-wise eta_{t,j} = alpha / (beta + sum_{i=1}^{t-1} g(x_i, xi_i)_j^2)^{1/2 + epsilon}와 같은 두 가지 일반화된 AdaGrad-유사 학습률 규칙을 연구한다.
위의 학습률 아래에서 Lipschitz 매끄러움, 한정된 지지 노이즈를 가정하고 SGD 그래디언트의 거의-확실한 제로 수렴을 증명한다.
볼록 설정에서 노이즈가 작을 때는 GD와 노이즈가 클 때는 SGD를 보간하는 형태로 적응적 유한시간 수렴 속도를 도출한다.
적응 학습률로 최상의 이터레이션에 대한 비볼록 수렴 속도를 제공하여 노이즈 수준을 모른 채로도 노이즈에 적응함을 보인다.

실험 결과

연구 질문

RQ1일반화된 AdaGrad 학습률이 비볼록 설정에서 그래디언트의 거의 확실한 제로 수렴을 보장하는가?
RQ2적응 학습률이 그래디언트 노이즈에 적응하여 볼록 문제에서 GD와 SGD 사이를 보간하는 유한시간 속도를 얻을 수 있는가?
RQ3특히 최상의 이터레이트에 대해 비볼록 설정에서도 이러한 유사한 적응 속도가 성립하는가?

주요 결과

일반화된 AdaGrad 학습률을 사용하는 SGD는 비볼록 및 볼록 경우 모두에서 그래디언트의 거의 확실한 제로 수렴으로 수렴한다.
볼록 문제에서 이 방법은 노이즈 수준에 적응하며 GD와 SGD 속도 사이를 다항로그항(polylog terms)까지 보간한다.
비볼록 설정에서 일반화된 AdaGrad 학습률은 노이즈가 낮을수록 적응적 유한시간 속도를 제공하고 최상의 이터레이트 보장을 확장한다.
이 분석은 비볼록 최적화에서 일반 AdaGrad-유사 학습률이 일반 SGD보다 이점이 있음을 이론적으로 처음 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.