QUICK REVIEW

[논문 리뷰] Variance Reduction for Faster Non-Convex Optimization

Zeyuan Allen-Zhu, Elad Hazan|arXiv (Cornell University)|2016. 03. 17.

Stochastic Gradient Optimization Techniques참고 문헌 25인용 수 126

한 줄 요약

본 논문은 비볼록 최적화에 대한 분산 감소를 갖춘 확률적 방법을 도입하며, ε-정지점에 도달하기 위한 반복 수가 O(n^{2/3} / ε)임을 보여 GD 및 SGD보다 우수하고 추가 가정 없이도 실현된다.

ABSTRACT

We consider the fundamental problem in non-convex optimization of efficiently reaching a stationary point. In contrast to the convex case, in the long history of this basic problem, the only known theoretical results on first-order non-convex optimization remain to be full gradient descent that converges in $O(1/\varepsilon)$ iterations for smooth objectives, and stochastic gradient descent that converges in $O(1/\varepsilon^2)$ iterations for objectives that are sum of smooth functions. We provide the first improvement in this line of research. Our result is based on the variance reduction trick recently introduced to convex optimization, as well as a brand new analysis of variance reduction that is suitable for non-convex optimization. For objectives that are sum of smooth functions, our first-order minibatch stochastic method converges with an $O(1/\varepsilon)$ rate, and is faster than full gradient descent by $Ω(n^{1/3})$. We demonstrate the effectiveness of our methods on empirical risk minimizations with non-convex loss functions and training neural nets.

연구 동기 및 목표

비볼록 목적함수의 정지점을 효율적으로 찾는 동기를 제시한다.
비볼록 손실에 적합한 분산 감소 방식으로 GD/SGD를 개선한다.
f(x0)−f(x*)의 항과 함께 O(n^{2/3}L / ε) 수렴율을 보장하는 SVRG 기반 알고리즘을 개발한다.
분산 감소 기법을 비볼록 설정으로 확장하고 분산 상한을 분석한다.
비볼록 손실을 갖는 ERM 및 신경망에 대한 실험적 효과를 보여준다.

제안 방법

비볼록 목적함수에 대해 SVRG와 유사한 분산 감소 경사 추정기를 채택한다.
xs0 스냅샷 지점과 내부 반복으로 에포크 구조를 사용하여 e∇k = ∇fi(xsk) − ∇fi(xs0) + ∇f(xs0)를 형성한다.
내부 반복 길이 m = n, 스텝 크기 η = Θ(1/(n^{2/3}L))로 설정한다.
각 에포크를 서브에포크로 분할하여 분산 bound를 이 telescoping하게 만들고 미러-디센트 분석을 활용한다.
그라디언트 추정기의 분산이 O(∥xsk − xs0∥^2)로 한정되며 이를 목적 함수 감소와 연관시킴을 보인다.
알고리즘 변형을 제시하고 미니배치, 비균일 매끄러움, 그리고 합-비볼록 목적함수로의 확장을 논의한다.

실험 결과

연구 질문

RQ1비볼록 최적화에서 분산 감소 기법이 GD/SGD보다 ε-정지점으로의 더 빠른 수렴을 이끌 수 있는가?
RQ2이러한 가속화를 가능하게 하는 비볼럭 목적함수에 대한 적절한 분산 상한 및 분석 기법은 무엇인가?
RQ3SVRG를 (스냅샷 선택, 에포크/서브에포크 구조) 비볼록 손실에 어떻게 적응시킬 수 있는가?
RQ4이 방법들이 실제로 비볼록 손실을 가진 ERM 및 신경망에 확장되는가?

주요 결과

제안된 비볼록 SVRG 변형은 O(n^{2/3}L(f(x0)−f(x*)) / ε) 반복에서 ε-정지점에 도달한다.
SVRG의 각 반복은 SGD만큼 빠르고, 전체 gradient descent보다 n배 빠르며 GD에 대해 이론상 Ω(n^{1/3})의 속도향상을 제공한다.
분산 bound가 O(∥xsk − xs0∥^2)로 확립되어 에포크/서브에포크 분석을 통해 진행을 보장한다.
m = n 및 η = Θ(1/(n^{2/3}L))일 때 알고리즘은 E[∥∇f(x)∥^2] ≤ O(L(f(xφ)−min f) / (S n^{1/3}))인 x를 출력한다.
비볼록 손실이 있는 ERM 및 신경망에 대한 실험에서 SVRG가 SGD에 비해 훈련 속도를 맞추거나 초과하는 경향을 보이며, 특히 더 작은 ε 및 비볼록 손실에서 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.