QUICK REVIEW

[논문 리뷰] Without-Replacement Sampling for Stochastic Gradient Methods: Convergence Results and Application to Distributed Optimization

Ohad Shamir|arXiv (Cornell University)|2016. 03. 02.

Stochastic Gradient Optimization Techniques참고 문헌 34인용 수 19

한 줄 요약

이 논문은 무작위로 선택한 샘플을 다시 넣지 않는 방식을 사용하는 확률적 경사 하강법에 대한 이론적 수렴 보장을 제공하며, 핵심 시나리오에서 다시 넣는 방식과 유사한 성능을 보임을 보여준다. 온라인 최소화 알고리즘, SGD, SVRG에 대한 수렴 한계를 설정하고, SVRG 분석을 활용해 무작위 데이터 분할 조건 하에서 통신 및 런타임 복잡도가 낮은 정규화된 최소 제곱법을 위한 거의 최적의 분산 알고리즘을 설계한다.

ABSTRACT

Stochastic gradient methods for machine learning and optimization problems are usually analyzed assuming data points are sampled \emph{with} replacement. In practice, however, sampling \emph{without} replacement is very common, easier to implement in many cases, and often performs better. In this paper, we provide competitive convergence guarantees for without-replacement sampling, under various scenarios, for three types of algorithms: Any algorithm with online regret guarantees, stochastic gradient descent, and SVRG. A useful application of our SVRG analysis is a nearly-optimal algorithm for regularized least squares in a distributed setting, in terms of both communication complexity and runtime complexity, when the data is randomly partitioned and the condition number can be as large as the data size per machine (up to logarithmic factors). Our proof techniques combine ideas from stochastic optimization, adversarial online learning, and transductive learning theory, and can potentially be applied to other stochastic optimization and learning problems.

연구 동기 및 목표

실제로 무작위로 선택한 샘플을 다시 넣지 않는 방식이 자주 더 잘 작동하는 이유를 이론적으로 설명할 수 있는 이론적 격차를 메우기 위해.
데이터에 대해 한 번 또는 몇 번의 통과만 하는 경우, 반복적인 재혼합을 피하면서도 무작위로 선택한 샘플을 다시 넣지 않는 방식을 사용하는 확률적 경사 하강법의 수렴 한계를 제공하기 위해.
무작위로 선택한 샘플을 다시 넣지 않는 방식을 기반으로 한 SVRG 분석을 활용해 정규화된 최소 제곱법을 위한 거의 최적의 분산 알고리즘을 개발하기 위해.
온라인 학습, 전이 학습, 확률적 최적화의 개념을 통합하여 무작위로 선택한 샘플을 다시 넣지 않는 방식에서의 종속성 구조를 분석하기 위해.

제안 방법

적대적 온라인 최소화 오차 보장을 사용하고 전이 라데마처 복잡도를 적용하여 볼록 함수에 대해 단일 통과 시 무작위로 선택한 샘플을 다시 넣지 않는 방식의 부적합성 구조를 기술한다.
강한 볼록성과 매끄러움을 갖는 손실 함수에 대해 확률적 경사 하강법을 적용하여 문제의 매개변수에 의존하는 수렴 속도를 유도한다.
정규화된 최소 제곱법에서 무작위로 선택한 샘플을 다시 넣지 않는 방식을 사용하는 SVRG 알고리즘을 분석하여, 고확률적으로 기대값 기반으로 수렴함을 보여준다.
무작위로 분할된 데이터에 대해 SVRG 분석을 적용하여 분산 최적화의 통신 및 계산 복잡도 한계를 유도한다.
균일 수렴과 농도 불등식을 사용하여 무작위로 선택한 샘플을 다시 넣지 않는 설정에서 종속성에 의해 유도되는 분산을 제어한다.
재귀적 오차 한계와 에포크 단위 분석을 사용하여 기대값 기반의 부적합성의 지수 감소를 보여주며, 목표 정확도를 확보하기 위해 로그 수준의 에포크 수를 도출한다.

실험 결과

연구 질문

RQ1무작위로 선택한 샘플을 다시 넣지 않는 방식이 종속성 구조를 가지는 바에 불구하고, 확률적 경사 하강법에서의 경험적 성공에 대해 이론적 근거를 제공할 수 있는가?
RQ2볼록 최적화 문제에서 수렴 속도 측면에서 무작위로 선택한 샘플을 다시 넣지 않는 방식이 다시 넣는 방식보다 유의미하게 열 劣하지 않다는 것을 증명할 수 있는가?
RQ3무작위로 선택한 샘플을 다시 넣지 않는 방식을 사용하는 SVRG 알고리즘은 분산 학습 환경에서 거의 최적의 통신 및 계산 복잡도를 달성할 수 있는가?
RQ4온라인 최소화 오차와 전이 학습의 개념을 어떻게 통합하여 확률적 최적화에서 종속성 있는 샘플링을 분석할 수 있는가?
RQ5무작위로 선택한 샘플을 다시 넣지 않는 방식의 이론적 분석을 SVRG를 초월한 다른 빠른 확률적 알고리즘으로 확장할 수 있는가?

주요 결과

모든 온라인 최소화 오차 보장을 갖는 알고리즘에 대해, 무작위 순열로 데이터를 한 번 통과한 후의 부적합성은 알고리즘의 최소화 오차와 가설 집합의 전이 라데마처 복잡도의 합으로 제한된다.
강한 볼록성과 매끄러움을 갖는 손실 함수에 대해 확률적 경사 하강법을 적용할 경우, 기대값 기반의 부적합성은 에포크 수에 따라 지수적으로 감소하며, s 에포크 후에는 O(1/4^s)의 속도를 달성한다.
무작위로 선택한 샘플을 다시 넣지 않는 방식을 사용하는 SVRG 알고리즘은 기대값 기반의 부적합성이 ε 이하가 되기까지 O(log(1/ε)) 에포크 내에 수렴하며, 사용된 샘플 수는 m/2 이하로 제한된다.
정규화된 최소 제곱법을 위한 거의 최적의 분산 알고리즘이 도출되었으며, 조건 수가 기계당 데이터 크기의 로그 인자 수준 이내일 경우, 통신 및 런타임 복잡도가 정보 이론적 하한선에 거의 근접한다.
분석 결과, 단일 통과 환경에서도 무작위로 선택한 샘플을 다시 넣지 않는 방식이 다시 넣는 방식과 비교해 기대값 기반의 수렴 성능이 열 劣하지 않음을 보여준다.
유도된 한계는 매끄러움, 강한 볼록성, 데이터 크기 등의 문제 매개변수에 의존하며, 분산 환경에서 로그 인자 수준 이내로 날카로운 한계임이 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.