Skip to main content
QUICK REVIEW

[논문 리뷰] A Variance Reduced Stochastic Newton Method

Aurélien Lucchi, Brian McWilliams|arXiv (Cornell University)|2015. 03. 28.
Stochastic Gradient Optimization Techniques참고 문헌 16인용 수 27
한 줄 요약

이 논문은 일정한 스텝 사이즈를 사용하여 부드럽고 강하게 볼록인 함수에 대해 기하학적(선형) 수렴을 달성하는 분산 감소(stochastic) Quasi-Newton 방법인 Vite를 제안한다. Vite는 확률적 BFGS 프레임워크에 분산 감소를 통합함으로써, 확률적 헤시안 근사치의 높은 분산 문제를 해결하여 기존의 확률적 Quasi-Newton 및 분산 감소된 SGD 방법보다 더 빠르고 안정적인 수렴을 가능하게 한다.

ABSTRACT

Quasi-Newton methods are widely used in practise for convex loss minimization problems. These methods exhibit good empirical performance on a wide variety of tasks and enjoy super-linear convergence to the optimal solution. For large-scale learning problems, stochastic Quasi-Newton methods have been recently proposed. However, these typically only achieve sub-linear convergence rates and have not been shown to consistently perform well in practice since noisy Hessian approximations can exacerbate the effect of high-variance stochastic gradient estimates. In this work we propose Vite, a novel stochastic Quasi-Newton algorithm that uses an existing first-order technique to reduce this variance. Without exploiting the specific form of the approximate Hessian, we show that Vite reaches the optimum at a geometric rate with a constant step-size when dealing with smooth strongly convex functions. Empirically, we demonstrate improvements over existing stochastic Quasi-Newton and variance reduced stochastic gradient methods.

연구 동기 및 목표

  • 높은 분산을 가진 확률적 그래디언트 및 헤시안 추정치로 인해 발생하는 확률적 Quasi-Newton 방법의 열악한 수렴성과 불안정성 문제를 해결하기 위해.
  • 확률적 2차 방법에서 그래디언트 분산을 줄임으로써 대규모 최적화 문제에서 수렴 속도와 내구성을 향상시키기 위해.
  • 감소하는 스텝 사이즈가 필요로 하는 기존의 확률적 BFGS 방법과는 달리, 일정한 스텝 사이즈로 기하학적 수렴을 달성하기 위해.
  • 두 번째 차수 정보와 분산 감소를 조합할 경우 실제 데이터셋에서 뛰어난 성능을 내는 것으로 경험적으로 보여주기 위해.

제안 방법

  • SVRG에 영감을 받은 다단계 분산 감소 기법을 사용하여, 주기적으로 갱신되는 피벗 포인트를 활용해 저분산 그래디언트 추정치를 계산한다.
  • 분산 감소된 그래디언트 추정치를 확률적 BFGS 업데이트 규칙에 적용하여, 역헤시안 행렬의 재귀적 근사치를 유지한다.
  • 일정한 스텝 사이즈를 사용하며, 표준적인 부드러움과 강한 볼록성 가정 하에 기하학적 수렴을 보장함을 입증한다.
  • 노이즈를 줄이기 위해 과거의 그래디언트와 헤시안 근사치 집합을 유지한다.
  • 완전한 헤시안을 명시적으로 계산하거나 역행렬을 구하지 않고도 BFGS 업데이트 규칙을 활용해 준수 뉴턴 헤시안 근사치를 구성한다.
  • 이론적 분석을 통해, 헤시안 업데이트를 수정하지 않더라도 그래디언트에 대한 분산 감소만으로도 기하학적 수렴을 달성할 수 있음을 보여준다.

실험 결과

연구 질문

  • RQ1확률적 BFGS에 분산 감소를 효과적으로 적용하여 일정한 스텝 사이즈로 기하학적 수렴을 달성할 수 있는가?
  • RQ2두 번째 차수 정보와 분산 감소를 조합할 경우, SVRG와 같은 1차 방법보다 더 빠른 수렴을 이룰 수 있는가?
  • RQ3실제로 기존의 확률적 Quasi-Newton 방법들인 RES 및 oBFGS보다 제안된 방법이 우수한 성능을 보일 수 있는가?
  • RQ4헤시안 근사치를 위한 보조 집합의 크기가 수렴 속도와 안정성에 미치는 영향은 무엇인가?
  • RQ5감소하는 스텝 사이즈가 필요 없이도 기하학적 수렴이 확률적 Quasi-Newton 방법에서 달성 가능한가?

주요 결과

  • Vite는 일정한 스텝 사이즈를 사용하여 매끄럽고 강하게 볼록인 함수에 대해 기하학적 수렴을 달성하며, 이는 확률적 Quasi-Newton 방법 분야에서 새로운 결과이다.
  • 경험적 결과로 Vite가 Cov, Adult, IJCNN를 포함한 다양한 실제 데이터셋에서 SVRG 및 RES보다 더 빠르게 수렴하는 것으로 나타났다.
  • 이 방법은 분산 감소된 SGD 및 확률적 BFGS 변종보다 일관되게 뛰어난 성능을 보이며, 두 번째 차수 정보와 분산 감소를 조합함으로써 유의미한 이점을 얻을 수 있음을 보여준다.
  • 헤시안 근사치를 위한 보조 집합이 작을수록 성능이 더 좋으며, 큰 집합은 수렴에 도움이 되지 않고 계산 비용만 증가시킨다.
  • Vite는 보조 집합 크기의 다양한 값에서 뛰어난 성능를 유지하지만, RES는 계산 오버헤드 증가로 인해 크기가 커질수록 성능이 떨어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.