QUICK REVIEW

[논문 리뷰] A Simple Stochastic Variance Reduced Algorithm with Fast Convergence Rates

Kaiwen Zhou, Fanhua Shang|arXiv (Cornell University)|2018. 06. 28.

Stochastic Gradient Optimization Techniques참고 문헌 12인용 수 44

한 줄 요약

MiG는 최상 알려진 수렴 속도와 일치하는 간단한 확률적 분산 감소 그래디언트 방법이며, 효율적인 희소 및 비동기 변형으로 강하게 볼록한 문제에서는 (n+√(κn)) log(1/ε), 비강 convex 문제에서는 1/T^2를 달성한다.

ABSTRACT

Recent years have witnessed exciting progress in the study of stochastic variance reduced gradient methods (e.g., SVRG, SAGA), their accelerated variants (e.g, Katyusha) and their extensions in many different settings (e.g., online, sparse, asynchronous, distributed). Among them, accelerated methods enjoy improved convergence rates but have complex coupling structures, which makes them hard to be extended to more settings (e.g., sparse and asynchronous) due to the existence of perturbation. In this paper, we introduce a simple stochastic variance reduced algorithm (MiG), which enjoys the best-known convergence rates for both strongly convex and non-strongly convex problems. Moreover, we also present its efficient sparse and asynchronous variants, and theoretically analyze its convergence rates in these settings. Finally, extensive experiments for various machine learning problems such as logistic regression are given to illustrate the practical improvement in both serial and asynchronous settings.

연구 동기 및 목표

확률적 분산 감소 그래디언트 방법에서 finite-sum 볼록 최적화의 가속화를 동기화합니다.
내부 루프에서 하나의 변수 벡터만 추적하도록 간단한 알고리즘(MiG)을 설계합니다.
강하게 볼록한 문제에 대해 최상-known 오라클 복잡도와 비강하게 볼록한 문제에 대해 최적의 속도를 달성합니다.
MiG를 희소하고 비동기 설정으로 확장하여 실용적 성능 이점을 제공합니다.
직렬 및 비동기 시나리오에서의 효율성을 입증하는 경험적 근거를 제공합니다.

제안 방법

오버헤드를 줄이고 희소/비동기 설정으로의 확장을 용이하게 하기 위해 단일 내부 루프 변수를 가진 MiG를 도입합니다.
tilde{∇} = ∇f_i_j(y_{j-1}) − ∇f_i_j(tilde{x}_{s-1}) + μ_s 로 기울기 추정기를 사용하고, μ_s = ∇f(tilde{x}_{s-1})를 사용합니다.
y를 x와 tilde{x}의 θ 가중 합으로 계산합니다. 즉, y_{j-1} = θ x^{s}_{j-1} + (1−θ) tilde{x}_{s-1}.
proximal 단계로 x^{s}_{j}를 업데이트합니다: min_x { (1/2η)||x−x^{s}_{j-1}||^2 + ⟨tilde{∇}, x⟩ + g(x) }.
내부 반복의 θ 가중 평균으로 tilde{x}_s를 구성합니다.
대각 재가중화 D를 사용해 편향되지 않은 기울기 추정치를 유지하고 1-벡터 업데이트 구조를 유지하는 희소/비동기 변형을 제공합니다.

실험 결과

연구 질문

RQ1확률적 분산 감소 방법에서 한 개의 결합 벡터만을 업데이트해도 가속화를 달성할 수 있는가?
RQ2MiG가 강하게 볼록하고 비강하게 볼록한 문제에 대해 기존 방법과 비교하여 얻을 수 있는 오라클 복잡도는 무엇인가?
RQ3MiG를 어떻게 희소성과 비동기를 허용하면서도 수렴 보장을 잃지 않도록 확장할 수 있는가?
RQ4Dense, Sparse 및 Async 환경에서 MiG가 최신 방법들에 비해 실험적으로 어떤 성능을 보이는가?

주요 결과

Algorithm	Complexity	Memory	S&A
SVRG	O((n+κ) log(1/ε))	1 Vec.	Yes
SAGA	O((n+κ) log(1/ε))	1 Vec. 1 ∇ table	Yes
Katyusha	O((n+√(κn)) log(1/ε))	2 Vec.	No
MiG	O((n+√(κn)) log(1/ε))	1 Vec.	Yes

MiG는 강하게 볼록한 문제에 대해 최상의 알려진 오라클 복잡도: O((n+√(κn)) log(1/ε)).
비강Convex 문제에서 MiG NSC는 최적의 O(1/T^2) 속도를 달성합니다.
MiG는 내부 루프에서 한 벡터를 유지하여 희소 및 비동기 변형을 효율적으로 가능하게 하여 실용적인 성능 이점을 제공합니다.
실험에서 MiG는 Dense 설정에서 Katyusha 및 SVRG를 매치하거나 상회하고 Sparse/Async 설정에서 KroMagnon 및 ASAGA를 상회합니다.
MiG는 그래디언트 테이블이 필요하지 않아 구현이 단순하고 분산 또는 비동기 컨텍스트로 쉽게 확장됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.