QUICK REVIEW

[논문 리뷰] SARAH: A Novel Method for Machine Learning Problems Using Stochastic Recursive Gradient

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|2017. 03. 01.

Stochastic Gradient Optimization Techniques참고 문헌 13인용 수 81

한 줄 요약

SARAH는 외부 루프와 내부 루프를 가진 확률적 재귀 그래디언트 방법을 도입하여 strongly convex finite-sum 문제에 대해 선형 수렴을 달성하고, SAG/SAGA와 달리 과거 그래디언트를 저장할 필요가 없다.

ABSTRACT

In this paper, we propose a StochAstic Recursive grAdient algoritHm (SARAH), as well as its practical variant SARAH+, as a novel approach to the finite-sum minimization problems. Different from the vanilla SGD and other modern stochastic methods such as SVRG, S2GD, SAG and SAGA, SARAH admits a simple recursive framework for updating stochastic gradient estimates; when comparing to SAG/SAGA, SARAH does not require a storage of past gradients. The linear convergence rate of SARAH is proven under strong convexity assumption. We also prove a linear convergence rate (in the strongly convex case) for an inner loop of SARAH, the property that SVRG does not possess. Numerical experiments demonstrate the efficiency of our algorithm.

연구 동기 및 목표

대규모 n을 가진 감독 학습에서 일반적으로 나타나는 finite-sum 최소화 문제를 다룬다.
그래디언트 저장 필요를 줄이는 분산 감소형 확률적 방법을 개발한다.
강볼록 P에 대한 선형 수렴을 증명하고 내부 루프의 거동을 분석한다.
적응적 내부 루즈 사이즈를 갖는 실용적 변형(SARAH+)을 제공한다.
SVRG, SAG, SGD+, FISTA에 비해 실용적 효율성을 입증한다.

제안 방법

외부 루프에서 전체 그래디언트를 계산하고 내부 루프에서 그래디언트 추정치를 재귀적으로 업데이트한다: v_t = ∇f_i_t(w_t) − ∇f_i_t(w_{t−1}) + v_{t−1}.
SARAH 업데이트를 SVRG와 비교하면 SARAH의 v_t는 편향되지 않은 그래디언트 추정기가 아니지만 여전히 수렴 보장을 제공한다.
외부 반복당 총 그래디언트 평가가 O(n + m)임을 보인다.
강볼록성 하에서 내부 루프 그래디언트 추정의 선형 수렴과 일반 볼록성의 경우 부분적으로 선형 수렴을 보인다.
||v_t||^2를 기준으로 내부 루프를 조정하고 고정된 최대 내부 루프 크기 m을 갖는 SARAH+를 도입한다.
학습률에 대한 완화된 제약과 향상된 안정성을 포함하여 SVRG 대비 이론적 이점을 논의한다.

실험 결과

연구 질문

RQ1강볼록 finite-sum 목표에 대해 과거 그래디언트를 저장하지 않고도 SARAH가 선형 수렴을 달성할 수 있는가?
RQ2재귀 그래디언트 업데이트가 내부 및 외부 루프에서 분산 감소 및 수렴에 어떤 영향을 미치는가?
RQ3이론적 수렴 보장(일반 볼록의 경우 부분선형, 강볼록의 경우 선형)과 실용적 성능이 SVRG/SAGA/SAG와 비교해 어떠한가?
RQ4적응적 내부 루프 크기를 갖는 실용적 변형(SARAH+)이 다양한 데이터셋에서 강인성과 성능을 향상시키는가?

주요 결과

SARAH는 강볼록 P에 대해 선형 수렴을 달성하고 일반 볼록 P에 대해서는 부분선형 수렴을 제공한다.
내부 루프 그래디언트 분산이 시간에 따라 감소하여 SVRG보다 안정성과 신뢰성을 뒷받침한다.
SARAH는 외부 반복당 O(n + m)의 그래디언트 평가만 필요하고 학습률은 대략 1/L 수준으로 고정한다.
적응적 내부 루프 정지를 갖는 실용적 SARAH+ 변형은 실전에서 강인성과 성능을 향상시킨다.
실험 결과는 SARAH와 SARAH+가 여러 로지스틱 회귀 작업 및 데이터세트에서 SVRG, SAG, SGD+ 및 FISTA보다 종종 우수하다는 것을 보여준다.
SARAH의 내부 루프 선형 수렴은 표준 강볼록성 가정과 더 강한 μ-강볼록성 가정 하에서 모두 증명된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.