Skip to main content
QUICK REVIEW

[논문 리뷰] A Proximal Stochastic Gradient Method with Progressive Variance Reduction

Lin Xiao, Tong Zhang|arXiv (Cornell University)|2014. 03. 19.
Stochastic Gradient Optimization Techniques참고 문헌 23인용 수 26
한 줄 요약

이 논문은 대규모 정규화된 경험 위험 최소화 문제를 해결하기 위해 점진적 분산 감소를 갖는 보조적 확률적 경사하강법(Prox-SVRG)을 제안한다. 다단계 기반으로 반복적으로 경사하강의 분산을 줄임으로써, 표준 확률적 경사하강 방법과 유사한 반복당 비용을 유지하면서 최적해로의 기하수렴을 달성한다. 이는 전체 복잡도에서 보조적 전체 경사하강법과 표준 보조적 확률적 경사하강법을 크게 능가한다.

ABSTRACT

We consider the problem of minimizing the sum of two convex functions: one is the average of a large number of smooth component functions, and the other is a general convex function that admits a simple proximal mapping. We assume the whole objective function is strongly convex. Such problems often arise in machine learning, known as regularized empirical risk minimization. We propose and analyze a new proximal stochastic gradient method, which uses a multi-stage scheme to progressively reduce the variance of the stochastic gradient. While each iteration of this algorithm has similar cost as the classical stochastic gradient method (or incremental gradient method), we show that the expected objective value converges to the optimum at a geometric rate. The overall complexity of this method is much lower than both the proximal full gradient method and the standard proximal stochastic gradient method.

연구 동기 및 목표

  • 표준 보조적 확률적 경사하강법의 수렴 속도 저하 원인인 확률적 경사하강의 높은 분산을 해결하기 위해.
  • 낮은 반복당 비용을 유지하면서도 기하수렴 속도를 달성하는 방법을 개발하기 위해.
  • 비연속적인 정규화 항을 위한 보조적 사상에 의해 비연속 정규화 항이 있는 문제로 분산 감소 기법을 확장하기 위해.
  • 보조적 전체 경사하강법과 표준 보조적 확률적 경사하강법보다 뛰어난 성능을 보여주는 복잡도 분석을 제공하기 위해.
  • 성분 함수의 부드러움이 다를 경우 성능 향상을 위해 가중치 샘플링을 통합하기 위해.

제안 방법

  • 주기적인 간격으로 전체 경사하강의 스냅샷을 사용하여 확률적 경사하강의 분산을 점진적으로 줄이는 다단계 알고리즘을 제안한다.
  • 보조적 업데이트 규칙을 사용한다: $ x_k = \mathrm{prox}_{\eta_k R}(x_{k-1} - \eta_k \nabla f_{i_k}(x_{k-1})) $, 비연속 정규화를 위한 확률적 경사하강 단계와 보조적 사상의 조합.
  • 이전 전체 통과에서의 경사하강 평균을 유지함으로써 제어 변수 기법을 적용하여 확률적 경사하강 추정치의 분산을 감소시킨다.
  • 성분 함수의 부드러움 매개수 $ L_i $ 가 다를 경우 수렴을 향상시키기 위해 가중치 샘플링 기법을 도입한다.
  • 감소하는 단계 크기 $ \eta_k $ 를 적용하고 $ \eta_k \leq 1/L $ 를 확보하여 안정성과 수렴성을 유지한다.
  • 전체 목표 함수의 강凸성과 함께 수렴을 분석하고 기대값 기반 기하수렴 속도를 유도한다.

실험 결과

연구 질문

  • RQ1확률적 경사하강의 분산을 점진적으로 줄여 반복당 비용을 증가시키지 않고 기하수렴을 달성할 수 있는가?
  • RQ2제안된 방법의 복잡도는 보조적 전체 경사하강법과 표준 보조적 확률적 경사하강법과 비교해 어떻게 되는가?
  • RQ3성분 함수의 이질적인 부드러움이 있을 경우 가중치 샘플링이 수렴을 향상시킬 수 있는가?
  • RQ4강凸성과 리프시츠 연속 경사하강 조건 하에서 제안된 방법의 이론적 수렴 속도는 무엇인가?
  • RQ5더 빠른 전역 수렴을 달성하면서도 반복당 계산 비용을 낮게 유지할 수 있는가?

주요 결과

  • 제안된 Prox-SVRG 방법은 표준 보조적 확률적 경사하강법의 비선형 수렴 속도와는 달리, 기대값 기반 기하(선형) 수렴 속도를 달성한다.
  • Prox-SVRG의 전체 반복 복잡도는 보조적 전체 경사하강법과 표준 보조적 확률적 경사하강법보다 크게 낮다.
  • 유리한 경우에서 SDCA와 SAG의 복잡도를 맞추지만, 더 넓은 범위의 문제에 적용 가능하며 성분별 경사하강을 저장할 필요가 없다.
  • 가중치 샘플링을 통해 이질적인 성분 함수의 부드러움이 있는 문제에서 개선된 복잡도 한계를 달성한다.
  • 수렴 속도는 기하수렴이며, 오차는 $ \left(\frac{1 - \eta \mu_F}{1 + \eta \mu_R}\right)^k $ 로 감소한다. 여기서 $ \mu_F $ 와 $ \mu_R $ 는 각각 $ F $ 와 $ R $ 의 강凸성 매개수이다.
  • 반복당 계산 비용은 표준 확률적 경사하강 방법과 동일하게 낮게 유지하면서도 뛰어난 전역 수렴 성능를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.