Skip to main content
QUICK REVIEW

[논문 리뷰] SARAH: A Novel Method for Machine Learning Problems Using Stochastic Recursive Gradient

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|2017. 02. 28.
Stochastic Gradient Optimization Techniques인용 수 267
한 줄 요약

SARAH는 과거 그래디언트 정보를 재귀 업데이트에 활용하여 유한합 최소화 문제를 위한 확률적 재귀 그래디언트 방법을 도입하고, 강하게 볼록한 문제에서 선형 수렴을 달성하며, 과거 그래디언트를 저장할 필요가 없고, 적응형 내부 루프 중지 기능이 있는 실용 변형 SARAH+를 포함한다.

ABSTRACT

In this paper, we propose a StochAstic Recursive grAdient algoritHm (SARAH), as well as its practical variant SARAH+, as a novel approach to the finite-sum minimization problems. Different from the vanilla SGD and other modern stochastic methods such as SVRG, S2GD, SAG and SAGA, SARAH admits a simple recursive framework for updating stochastic gradient estimates; when comparing to SAG/SAGA, SARAH does not require a storage of past gradients. The linear convergence rate of SARAH is proven under strong convexity assumption. We also prove a linear convergence rate (in the strongly convex case) for an inner loop of SARAH, the property that SVRG does not possess. Numerical experiments demonstrate the efficiency of our algorithm.

연구 동기 및 목표

  • 감독 학습에서 발생하는 대규모 유한합 문제에 대한 효율적 최적화를 촉진한다.
  • 모든 과거 그래디언트를 저장하지 않고 재귀적으로 그래디언트를 업데이트하는 분산 감소형 확률적 그래디언트 방법을 개발한다.
  • 강하게 볼록성 하에서 선형 수렴 속도를, 일반 볼록 설정에서 서브선형 수렴 속도를 보장한다.
  • 강건성과 성능을 향상시키기 위한 적응적 내부 루프 중지 기능을 갖춘 실용적 변형(SARAH+)을 제공한다.

제안 방법

  • 외부 루프에서 전체 그래디언트를 평가하고 내부 루프에서 v_t = ∇f_i(w_t) − ∇f_i(w_{t−1}) + v_{t−1} 및 w_{t+1} = w_t − η v_t를 사용한 확률적 업데이트로 SARAH를 도입한다.
  • 일반적으로 SARAH가 편향되지 않은 그래디언트 추정기가 아님을 보이되, E[v_t] = E[∇P(w_t)] 이므로 수렴 분석이 가능하다.
  • 적절히 선택된 학습률 η 하에서 μ-강볼록성하의 내부 루프 그래디언트 추정치의 선형 수렴을 증명한다.
  • 일반 볼록성과 강볼록성의 경우에 대한 수렴 결과를 제공하며, 일반 볼록의 경우 서브선형 속도와 적절한 매개변수 선택으로 선형 속도를 확보한다.
  • ||v_t||^2를 기반으로 한 적응적 내부 루프 중지 및 다른 최종화 규칙(마지막 내부 인덱스로 선택된 t)을 갖춘 실용적 변형인 SARAH+를 제안한다.
  • 저장소, 학습률 요구사항 및 수렴 보장 측면에서 SARAH를 SVRG, SAG/SAGA 및 SGD 변형과 비교한다.

실험 결과

연구 질문

  • RQ1낮은 저장 비용을 사용하면서도 SARAH가 강하게 볼록한 유한합 문제에서 선형 수렴을 달성할 수 있는가?
  • RQ2재귀적 그래디언트 업데이트가 SVRG 및 SAG/SAGA에 비해 분산 감소 및 안정성에 어떤 영향을 미치는가?
  • RQ3SARAH 하에서 일반 볼록 및 강볼록 설정에 대한 수렴 보장은 무엇이며, SARAH+가 실용적 성능을 어떻게 향상시키는가?
  • RQ4내부 루프 크기 m과 학습률 η가 데이터셋 전반의 수렴성과 안정성에 어떤 영향을 미치는가?

주요 결과

  • SARAH는 강하게 볼록한 설정에서 η = O(1/L)이고 내부 루프 크기 m이 조건수 κ에 상대적으로 선택될 때 선형 수렴을 달성한다.
  • SARAH의 내부 루프 단계의 분산은 시간에 따라 감소하여 SVRG보다 더 안정적인 업데이트를 제공하며, 내부 루프의 선형 수렴이 확립된다(정리 1a/1b).
  • 일반 볼록의 경우 SARAH는 서브선형 수렴을 달성하고, 다수의 외부 반복이 있을 때 총 복잡도는 O((n + 1/ε) log(1/ε)) 이다.
  • 강하게 볼록한 경우 SARAH는 O((n + κ) log(1/ε))의 총 복잡도를 달성하며 SVRG 및 SAG와 유사하고, SARAH는 더 작은 수렴 속도 상수와 더 큰 안정성을 제공한다.
  • SARAH+는 ||v_t||^2를 기반으로 한 적응적 내부 루프 중지 기준을 제공하여 데이터셋 전반에서 강건한 성능을 가능하게 하고 일반적으로 SVRG보다 조정이 덜 필요하다.
  • 다수의 데이터셋에 대한 실험 결과는 SARAH 및 SARAH+가 손실 감소 및 테스트 정확도 측면에서 최첨단 1차 방법보다 우수하거나 일치함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.