QUICK REVIEW

[논문 리뷰] A Variance Reduced Stochastic Newton Method

Aurélien Lucchi, Brian McWilliams|arXiv (Cornell University)|2015. 03. 28.

Stochastic Gradient Optimization Techniques참고 문헌 16인용 수 27

한 줄 요약

이 논문은 일정한 스텝 사이즈를 사용하여 부드럽고 강하게 볼록인 함수에 대해 기하학적(선형) 수렴을 달성하는 분산 감소(stochastic) Quasi-Newton 방법인 Vite를 제안한다. Vite는 확률적 BFGS 프레임워크에 분산 감소를 통합함으로써, 확률적 헤시안 근사치의 높은 분산 문제를 해결하여 기존의 확률적 Quasi-Newton 및 분산 감소된 SGD 방법보다 더 빠르고 안정적인 수렴을 가능하게 한다.

ABSTRACT

Quasi-Newton methods are widely used in practise for convex loss minimization problems. These methods exhibit good empirical performance on a wide variety of tasks and enjoy super-linear convergence to the optimal solution. For large-scale learning problems, stochastic Quasi-Newton methods have been recently proposed. However, these typically only achieve sub-linear convergence rates and have not been shown to consistently perform well in practice since noisy Hessian approximations can exacerbate the effect of high-variance stochastic gradient estimates. In this work we propose Vite, a novel stochastic Quasi-Newton algorithm that uses an existing first-order technique to reduce this variance. Without exploiting the specific form of the approximate Hessian, we show that Vite reaches the optimum at a geometric rate with a constant step-size when dealing with smooth strongly convex functions. Empirically, we demonstrate improvements over existing stochastic Quasi-Newton and variance reduced stochastic gradient methods.

연구 동기 및 목표

높은 분산을 가진 확률적 그래디언트 및 헤시안 추정치로 인해 발생하는 확률적 Quasi-Newton 방법의 열악한 수렴성과 불안정성 문제를 해결하기 위해.
확률적 2차 방법에서 그래디언트 분산을 줄임으로써 대규모 최적화 문제에서 수렴 속도와 내구성을 향상시키기 위해.
감소하는 스텝 사이즈가 필요로 하는 기존의 확률적 BFGS 방법과는 달리, 일정한 스텝 사이즈로 기하학적 수렴을 달성하기 위해.
두 번째 차수 정보와 분산 감소를 조합할 경우 실제 데이터셋에서 뛰어난 성능을 내는 것으로 경험적으로 보여주기 위해.

제안 방법

SVRG에 영감을 받은 다단계 분산 감소 기법을 사용하여, 주기적으로 갱신되는 피벗 포인트를 활용해 저분산 그래디언트 추정치를 계산한다.
분산 감소된 그래디언트 추정치를 확률적 BFGS 업데이트 규칙에 적용하여, 역헤시안 행렬의 재귀적 근사치를 유지한다.
일정한 스텝 사이즈를 사용하며, 표준적인 부드러움과 강한 볼록성 가정 하에 기하학적 수렴을 보장함을 입증한다.
노이즈를 줄이기 위해 과거의 그래디언트와 헤시안 근사치 집합을 유지한다.
완전한 헤시안을 명시적으로 계산하거나 역행렬을 구하지 않고도 BFGS 업데이트 규칙을 활용해 준수 뉴턴 헤시안 근사치를 구성한다.
이론적 분석을 통해, 헤시안 업데이트를 수정하지 않더라도 그래디언트에 대한 분산 감소만으로도 기하학적 수렴을 달성할 수 있음을 보여준다.

실험 결과

연구 질문

RQ1확률적 BFGS에 분산 감소를 효과적으로 적용하여 일정한 스텝 사이즈로 기하학적 수렴을 달성할 수 있는가?
RQ2두 번째 차수 정보와 분산 감소를 조합할 경우, SVRG와 같은 1차 방법보다 더 빠른 수렴을 이룰 수 있는가?
RQ3실제로 기존의 확률적 Quasi-Newton 방법들인 RES 및 oBFGS보다 제안된 방법이 우수한 성능을 보일 수 있는가?
RQ4헤시안 근사치를 위한 보조 집합의 크기가 수렴 속도와 안정성에 미치는 영향은 무엇인가?
RQ5감소하는 스텝 사이즈가 필요 없이도 기하학적 수렴이 확률적 Quasi-Newton 방법에서 달성 가능한가?

주요 결과

Vite는 일정한 스텝 사이즈를 사용하여 매끄럽고 강하게 볼록인 함수에 대해 기하학적 수렴을 달성하며, 이는 확률적 Quasi-Newton 방법 분야에서 새로운 결과이다.
경험적 결과로 Vite가 Cov, Adult, IJCNN를 포함한 다양한 실제 데이터셋에서 SVRG 및 RES보다 더 빠르게 수렴하는 것으로 나타났다.
이 방법은 분산 감소된 SGD 및 확률적 BFGS 변종보다 일관되게 뛰어난 성능을 보이며, 두 번째 차수 정보와 분산 감소를 조합함으로써 유의미한 이점을 얻을 수 있음을 보여준다.
헤시안 근사치를 위한 보조 집합이 작을수록 성능이 더 좋으며, 큰 집합은 수렴에 도움이 되지 않고 계산 비용만 증가시킨다.
Vite는 보조 집합 크기의 다양한 값에서 뛰어난 성능를 유지하지만, RES는 계산 오버헤드 증가로 인해 크기가 커질수록 성능이 떨어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.