QUICK REVIEW

[논문 리뷰] A Simple Proximal Stochastic Gradient Method for Nonsmooth Nonconvex Optimization

Zhize Li, Jian Li|arXiv (Cornell University)|2018. 02. 13.

Sparse and Compressive Sensing Techniques참고 문헌 25인용 수 26

한 줄 요약

이 논문은 비연속 비볼록 유한합 문제를 위한 새로운 프록시멀 확률적 경사하강법인 ProxSVRG+를 제안한다. 이 방법은 분산 감소 기법과 효율적인 프록시멀 업데이트를 결합하여, 일정하거나 중간 크기의 미니배치에서 특히 뛰어난 수렴 속도를 달성한다. 또한 리스타트 없이 폴리악-로자예프스키 조건 하에서 전역 선형 수렴을 달성한다.

ABSTRACT

We analyze stochastic gradient algorithms for optimizing nonconvex, nonsmooth finite-sum problems. In particular, the objective function is given by the summation of a differentiable (possibly nonconvex) component, together with a possibly non-differentiable but convex component. We propose a proximal stochastic gradient algorithm based on variance reduction, called ProxSVRG+. Our main contribution lies in the analysis of ProxSVRG+. It recovers several existing convergence results and improves/generalizes them (in terms of the number of stochastic gradient oracle calls and proximal oracle calls). In particular, ProxSVRG+ generalizes the best results given by the SCSG algorithm, recently proposed by [Lei et al., 2017] for the smooth nonconvex case. ProxSVRG+ is also more straightforward than SCSG and yields simpler analysis. Moreover, ProxSVRG+ outperforms the deterministic proximal gradient descent (ProxGD) for a wide range of minibatch sizes, which partially solves an open problem proposed in [Reddi et al., 2016b]. Also, ProxSVRG+ uses much less proximal oracle calls than ProxSVRG [Reddi et al., 2016b]. Moreover, for nonconvex functions satisfied Polyak-Łojasiewicz condition, we prove that ProxSVRG+ achieves a global linear convergence rate without restart unlike ProxSVRG. Thus, it can \emph{automatically} switch to the faster linear convergence in some regions as long as the objective function satisfies the PL condition locally in these regions. ProxSVRG+ also improves ProxGD and ProxSVRG/SAGA, and generalizes the results of SCSG in this case. Finally, we conduct several experiments and the experimental results are consistent with the theoretical results.

연구 동기 및 목표

일정하거나 중간 크기의 미니배치에서 비연속 비볼록 유한합 문제에 대해 효율적인 확률적 방법이 부족한 문제를 해결하기 위해.
ProxSVRG와 ProxSAGA가 큰 미니배치가 필요로 하여 결정론적 ProxGD를 능가할 수 없는 한계를 극복하기 위해.
수렴 속도를 유지하거나 향상시키면서도 프록시멀 오라클 호출 수를 줄이는 방법을 개발하기 위해.
Reddi 등(2016b)이 제기한 열린 문제를 해결하기 위해, 일정한 미니배치 크기에서 ProxGD를 능가하는 성능을 달성하는 것.
리스타트 없이 폴리악-로자예프스키 조건 하에서 전역 선형 수렴을 확립하기 위해.

제안 방법

분산 감소 기법을 활용한 SVRG 프레임워크에 기반한 프록시멀 확률적 경사하강법인 ProxSVRG+를 제안한다.
ProxSVRG보다 수렴 증명을 단순화할 수 있는 새로운 분석 기법을 도입하여 더 날카운 경계를 도출한다.
내림폭과 분산 감소 효과를 균형 있게 유지하기 위해 $\eta = \frac{1}{6L}$의 스텝 사이즈 규칙을 적용한다.
전체 경사와 확률적 경사 추정치의 조합을 통해 업데이트 방향의 분산을 감소시킨다.
예상 목표 함수 갭에 대한 재귀적 경계를 유도하기 위해 얀의 부등식과 노름 분해 기법을 활용한다.
폴리악-로자예프스키(PL) 조건을 활용하여 리스타트 없이 전역 선형 수렴을 확립한다.

실험 결과

연구 질문

RQ1비연속 비볼록 최적화에서 일정하거나 중간 크기의 미니배치에서 확률적 프록시멀 방법이 결정론적 ProxGD보다 더 나은 수렴 성능을 달성할 수 있는가?
RQ2제안된 방법인 ProxSVRG+는 리스타트 없이 PL 조건 하에서 전역 선형 수렴을 달성하는가?
RQ3ProxSVRG에 비해 프록시멀 오라클 호출 수를 크게 줄일 수 있는가? 이때 수렴 속도는 유지되거나 향상되어야 한다.
RQ4ProxSVRG+는 부드러운 비볼록 케이스에서 SCSG와 어떻게 비교되며, SCSG의 결과를 비연속 케이스로 일반화할 수 있는가?
RQ5비연속 비볼록 영역에서 확률적 경사 오라클 호출 수와 프록시멀 오라클 호출 수 사이의 최적의 트레이드오프는 무엇인가?

주요 결과

ProxSVRG+는 확률적 1차 오라클 호출 수 측면에서 수렴 속도 $\widetilde{O}(\frac{1}{\epsilon^{3/2}} \wedge \frac{n^{1/2}}{\epsilon})$를 달성하여 이전 결과를 향상시킨다.
ProxSVRG에 비해 프록시멀 오라클 호출 수를 줄여 실질적인 효율성을 높인다.
폴리악-로자예프스키 조건을 만족하는 함수에 대해 ProxSVRG+는 리스타트 없이 전역 선형 수렴을 달성한다. 이는 ProxSVRG와는 다릅니다.
ProxSVRG+는 다양한 미니배치 크기에서 ProxGD를 능가하며, Reddi 등(2016b)의 열린 문제를 해결한다.
알고리즘은 SCSG의 최고 성능 결과를 비연속 비볼록 케이스로 일반화하여 적용 범위를 넓힌다.
실험 결과는 이론적 발견을 확인하며, ProxGD와 ProxSVRG에 비해 일관된 성능 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.