QUICK REVIEW

[논문 리뷰] Barzilai-Borwein Step Size for Stochastic Gradient Descent

Conghui Tan, Shiqian Ma|ArXiv.org|2016. 05. 13.

Stochastic Gradient Optimization Techniques참고 문헌 26인용 수 70

한 줄 요약

이 논문은 확률적 경사 하강법 및 그 분산 감소 버전인 SVRG에 대해 자동으로 단계 크기를 계산하는 데 바르지라이-보우인(BB) 방법을 사용하는 SGD-BB와 SVRG-BB를 제안한다. 저자들은 강凸 함수에 대해 SVRG-BB의 선형 수렴성을 증명하고, 표준 머신러닝 데이터셋에서 수작업으로 조정된 단계 크기를 사용하는 SGD 및 SVRG와 비교하여 실험적으로 이들의 성능이 이를 충족하거나 초월함을 보여준다.

ABSTRACT

One of the major issues in stochastic gradient descent (SGD) methods is how to choose an appropriate step size while running the algorithm. Since the traditional line search technique does not apply for stochastic optimization algorithms, the common practice in SGD is either to use a diminishing step size, or to tune a fixed step size by hand, which can be time consuming in practice. In this paper, we propose to use the Barzilai-Borwein (BB) method to automatically compute step sizes for SGD and its variant: stochastic variance reduced gradient (SVRG) method, which leads to two algorithms: SGD-BB and SVRG-BB. We prove that SVRG-BB converges linearly for strongly convex objective functions. As a by-product, we prove the linear convergence result of SVRG with Option I proposed in [10], whose convergence result is missing in the literature. Numerical experiments on standard data sets show that the performance of SGD-BB and SVRG-BB is comparable to and sometimes even better than SGD and SVRG with best-tuned step sizes, and is superior to some advanced SGD variants.

연구 동기 및 목표

고정 또는 감소하는 단계 크기를 일반적으로 사용하지만 최적화되지 않는 확률적 경사 하강법(SGD)에서 단계 크기 선택 문제를 해결하기 위해.
수작업 조정을 피하고 선형 탐색도 불가능한 확률적 환경에서 실현 불가능한 선형 탐색에 의존하지 않는 자동 단계 크기 선택 메커니즘을 개발하기 위해.
바르지라이-보우인 방법을 확률적 최적화, 특히 SGD와 SVRG에 확장하여 SGD-BB와 SVRG-BB를 도출하기 위해.
SVRG-BB의 선형 수렴성을 증명하고, 이를 부산물로 하여 옵션 I을 사용하는 SVRG의 선형 수렴성이 미리 증명되지 않은 점을 보완하기 위해.
실제 로지스틱 회귀 및 서포트 벡터 머신 문제에서 제안된 방법의 성능을 실증적으로 평가하고, 최신의 SGD 변형과 비교하기 위해.

제안 방법

두 번째 반복에서의 반복자와 기울기의 차이를 사용하여, 바르지라이-보우인(BB) 방법을 SGD와 SVRG에서 단계 크기를 계산하는 데 적응시켰다.
각 반복에서 BB 단계 크기는 $ \eta_t = \frac{\|s_{t-1}\|^2}{\langle s_{t-1}, y_{t-1} \rangle} $로 계산되며, 여기서 $ s_{t-1} = x_t - x_{t-1} $ 이고 $ y_{t-1} = \nabla f_{i_t}(x_t) - \nabla f_{i_{t-1}}(x_{t-1}) $ 이다.
SGD-BB에서 BB 단계 크기를 안정화하기 위해 스무딩 기법을 도입하여 과거 단계 크기의 이동 평균을 사용하여 진동을 방지한다.
BB 방법은 SAG 프레임워크로도 확장되어 SAG-BB를 도출하였으며, 이는 분산 감소 성질을 유지하면서도 동적으로 단계 크기를 조정한다.
알고리즘은 표준 SGD 및 SVRG와 동일한 반복당 계산 비용을 유지하도록 설계되어 실용적 효율성을 확보한다.
이론적 수렴 분석을 통해 SVRG-BB의 선형 수렴성을 강凸성과 미분 가능성 조건 하에서 증명하였다.

실험 결과

연구 질문

RQ1바르지라이-보우인 방법은 선형 탐색 없이도 확률적 경사 하강법에 효과적으로 적용되어 자동으로 단계 크기를 계산할 수 있는가?
RQ2SVRG-BB는 강凸 함수에 대해 선형 수렴성을 달성하는가? 그리고 이를 엄밀하게 증명할 수 있는가?
RQ3이전에 문헌에서 미증명되었던, 옵션 I(SVRG-I)를 사용하는 SVRG의 수렴성이 선형임을 증명할 수 있는가?
RQ4실세계 머신러닝 문제에서 SGD-BB와 SVRG-BB는 최적화된 수동 단계 크기를 사용하는 SGD 및 SVRG와 비교해 어떻게 성능을 내는가?
RQ5BB 단계 크기 메커니즘은 SAG와 같은 다른 분산 감소 SGD 변형으로도 성공적으로 확장할 수 있는가?

주요 결과

SVRG-BB는 강凸 목적 함수에 대해 선형 수렴성을 보이며, 제안된 방법에 대한 이론적 보장을 확립한다.
부산물로써, 이전에 문헌에서 누락되었던 옵션 I을 사용하는 SVRG의 선형 수렴성이 증명된다.
수치 실험 결과, SGD-BB는 로지스틱 회귀 및 SVM 작업에서 최적화된 수동 단계 크기를 사용하는 SGD와 비교해 유사하거나 뛰어난 성능을 보였다.
SVRG-BB는 최적화된 수동 단계 크기를 사용하는 SVRG와 비교해 성능이 유사하거나 뛰어나, 자동 단계 크기 선택의 효과성을 입증한다.
스무딩 기법은 SGD-BB에서 단계 크기를 안정화하여, 몇 에포크 이후 최적의 감소하는 단계 크기와 유사한 경향을 따르도록 한다.
AdaGrad, 선형 탐색을 사용하는 SAG(SAG-L), oLBFGS와의 비교에서, SGD-BB와 SAG-BB는 수렴 속도와 최적화 정도 측면에서 항상 이전하거나 동등한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.