QUICK REVIEW

[논문 리뷰] SpiderBoost and Momentum: Faster Stochastic Variance Reduction Algorithms

Zhe Wang, Kaiyi Ji|arXiv (Cornell University)|2018. 10. 25.

Stochastic Gradient Optimization Techniques참고 문헌 38인용 수 30

한 줄 요약

이 논문은 비볼록 최적화에서 near-optimal 오라클 복잡도를 달성하는 새로운 확률적 분산 감소 알고리즘인 SpiderBoost를 제안한다. 이 알고리즘은 일정한 단계 크기(consant stepsize)를 사용하며, SPIDER와 이전 방법들에 비해 실용적인 성능을 크게 향상시킨다. 또한, 모멘텀을 통합한 Prox-SpiderBoost-M을 도입하여 복합 비볼록 문제에 대해 최적의 $\mathcal{O}(n + \sqrt{n}\epsilon^{-2})$ 복잡도를 달성한다.

ABSTRACT

SARAH and SPIDER are two recently developed stochastic variance-reduced algorithms, and SPIDER has been shown to achieve a near-optimal first-order oracle complexity in smooth nonconvex optimization. However, SPIDER uses an accuracy-dependent stepsize that slows down the convergence in practice, and cannot handle objective functions that involve nonsmooth regularizers. In this paper, we propose SpiderBoost as an improved scheme, which allows to use a much larger constant-level stepsize while maintaining the same near-optimal oracle complexity, and can be extended with proximal mapping to handle composite optimization (which is nonsmooth and nonconvex) with provable convergence guarantee. In particular, we show that proximal SpiderBoost achieves an oracle complexity of $\mathcal{O}(\min\{n^{1/2}ε^{-2},ε^{-3}\})$ in composite nonconvex optimization, improving the state-of-the-art result by a factor of $\mathcal{O}(\min\{n^{1/6},ε^{-1/3}\})$. We further develop a novel momentum scheme to accelerate SpiderBoost for composite optimization, which achieves the near-optimal oracle complexity in theory and substantial improvement in experiments.

연구 동기 및 목표

SPIDER의 정확도에 의존하는 단계 크기 제한 문제를 해결하여 실용적인 수렴 속도를 향상시키기 위해.
비구형 정규화 항을 다룰 수 있는 SPIDER의 프록시멀 확장으로, 증명 가능한 수렴 보장을 갖춘 알고리즘을 개발하기 위해.
SPIDER 기반 방법의 수렴 속도를 향상시키기 위해 새로운 모멘텀 기법을 도입하면서도 최적의 오라클 복잡도를 유지하기 위해.
분산 감소 확률적 최적화에서 이론적 복잡도와 실용적 성능 사이의 격차를 해소하기 위해.

제안 방법

SpiderBoost는 전체 내부 루프 동안 변수 증분을 제한하는 새로운 수렴 분석 프레임워크를 사용하여, $\eta = \mathcal{O}(1/L)$의 일정한 단계 크기 $\eta$를 허용하며, SPIDER의 $\mathcal{O}(\epsilon/L)$와는 다릅니다.
알고리즘은 SPIDER와 유사한 정규화된 기울기 추정기법을 사용하지만, 더 엄격한 분석을 통해 단계 크기 제약 조건을 완화합니다.
Prox-SpiderBoost는 프록시멀 매핑을 사용하여 비구형 정규화 항이 포함된 복합 비볼록 문제를 해결합니다.
기울기 추정기의 마틴갈 구조를 활용하여 수렴 속도를 향상시키는 새로운 모멘텀 기법, Prox-SpiderBoost-M을 설계했습니다.
모멘텀과 분산을 제어하기 위해 적응형 가중치 $\alpha_k$, $\beta_k$, $\lambda_k$를 사용하는 재귀적 업데이트 규칙을 사용합니다.
이론적 분석은 최적화 경로에 걸쳐 텔레스코프 합과 분산 분해를 사용하여 기울기 추정기의 기대 노름을 제한합니다.

실험 결과

연구 질문

RQ1분산 감소 알고리즘이 더 큰 일정한 단계 크기를 사용하면서도 near-optimal 오라클 복잡도를 유지할 수 있는가?
RQ2SPIDER는 비구형 정규화 항이 있는 복합 최적화로 일반화될 수 있으며, 수렴 보장이 유지되는가?
RQ3모멘텀은 SPIDER 유형 알고리즘에 효과적으로 통합될 수 있으며, 이론적 최적성은 유지하면서 실용적 성능을 향상시킬 수 있는가?
RQ4주어진 가정 하에 복합 비볼록 최적화의 최적 오라클 복잡도는 무엇인가?

주요 결과

Prox-SpiderBoost는 $\mathcal{O}(\min\{n^{1/2}\epsilon^{-2}, \epsilon^{-3}\})$의 오라클 복잡도를 달성하여 기존 최고 성능보다 $\mathcal{O}(\min\{n^{1/6}, \epsilon^{-1/3}\})$의 요소로 향상되었다.
SpiderBoost에서의 일정한 단계 크기 $\eta = \mathcal{O}(1/L)$는 SPIDER의 $\mathcal{O}(\epsilon/L)$ 단계 크기보다 실용적으로 더 빠른 수렴을 가능하게 한다.
Prox-SpiderBoost-M은 최적의 $\mathcal{O}(n + \sqrt{n}\epsilon^{-2})$ 오라클 복잡도를 달성하여 비볼록 최적화의 알려진 하한선과 일치한다.
이론적 분석 결과, $\mathbb{E}\|G_{\lambda_\zeta}(z_\zeta, \nabla f(z_\zeta))\| \leq \mathcal{O}(\sqrt{L(\Psi(x_0) - \Psi^*)/K})$임을 보여주며, 이는 $K = \mathcal{O}(L(\Psi(x_0) - \Psi^*)/\epsilon^2)$회의 반복이 필요함을 의미한다.
이 방법은 $\mathcal{O}(\epsilon^{-2})$의 프록시멀 오라클 복잡도를 달성하며, 이는 주어진 문제 유형에 대해 최적이 된다.
실증 결과는 초기 학습 단계에서 SPIDER 및 기타 기준 방법들에 비해 상당한 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.