QUICK REVIEW

[논문 리뷰] Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast Convergence

Nicolas Loizou, Sharan Vaswani|arXiv (Cornell University)|2020. 02. 24.

Stochastic Gradient Optimization Techniques참고 문헌 57인용 수 37

한 줄 요약

SPS를 도입하는 것은 SGD를 위한 확률적 Polyak 스텝사이즈로, f_i*와 f_i(x)를 사용해 학습률을 조정하여 강하게 볼록, 볼록, 비볼록 설정에서 빠른 수렴을 달성하며 보간 영역에서 강력한 결과를 보인다.

ABSTRACT

We propose a stochastic variant of the classical Polyak step-size (Polyak, 1987) commonly used in the subgradient method. Although computing the Polyak step-size requires knowledge of the optimal function values, this information is readily available for typical modern machine learning applications. Consequently, the proposed stochastic Polyak step-size (SPS) is an attractive choice for setting the learning rate for stochastic gradient descent (SGD). We provide theoretical convergence guarantees for SGD equipped with SPS in different settings, including strongly convex, convex and non-convex functions. Furthermore, our analysis results in novel convergence guarantees for SGD with a constant step-size. We show that SPS is particularly effective when training over-parameterized models capable of interpolating the training data. In this setting, we prove that SPS enables SGD to converge to the true solution at a fast rate without requiring the knowledge of any problem-dependent constants or additional computational overhead. We experimentally validate our theoretical results via extensive experiments on synthetic and real datasets. We demonstrate the strong performance of SGD with SPS compared to state-of-the-art optimization methods when training over-parameterized models.

연구 동기 및 목표

유한합 학습 문제에서 SGD의 스텝 사이즈 선택에 대한 동기를 제시하고 이를 다룬다.
SGD를 위한 적응 학습률으로 확률적 Polyak 스텝사이즈(SPS)를 도입한다.
강-볼록성, 볼록성, 비-볼록성에 걸친 SPS의 이론적 수렴 보장을 제공한다.
보간 설정에서 SPS가 진짜 해로 빠르게 수렴하여 실제 해로 수렴할 수 있음을 보인다.
다양한 모델에 걸친 합성 데이터 및 실제 데이터셋에서 SPS의 실험적 성능을 보여준다.

제안 방법

SPS를 gamma_k = (f_i(x^k) - f_i^*) / (c ||∇f_i(x^k)||^2) 및 그 유계 버전 SPS_max로 정의한다.
SPS를 고전적 결정적 Polyak 스텝사이즈와 연관시키고 f_i^*의 지식 필요성과 c의 선택에 대해 논의한다.
강-볼록성, 볼록성, 비-볼록(PL) 조건 및 상수 스텝 사이즈 영역에서 SPS_max에 대한 이론적 수렴 결과를 제공한다.
SPS가 실제 해로의 빠른 수렴을 달성하는 보간 및 과잉 매개화(over-parameterization) 설정을 분석한다.
비매끄러운 설정 및 스트리밍 설정에 대한 확장을 제시하고 SPS를 선형 시스템 해법과 연결한다.

실험 결과

연구 질문

RQ1확률적 Polyak 스텝사이즈(SPS)가 강-볼록, 볼록, 비-볼록 목적 함수에 걸쳐 SGD의 수렴을 보장하는가?
RQ2보간(과잉 매개화) 영역에서 SPS는 상수 스텝 SGD 및 다른 적응 방법과 어떻게 비교되는가?
RQ3다양한 매끄러움(smoothness)과 볼록성 가정 하에서 SPS 및 SPS_max의 수렴 속도 및 이웃 크기는 무엇인가?
RQ4문제 의존 상수의 지식 없이도 보간 설정에서 SPS가 정확한 해로의 수렴을 달성할 수 있는가?
RQ5합성 데이터 및 과잉 매개화된 모델에서 SPS가 최신 최적화 알고리즘과 비교하여 실험적으로 어떻게 수행하는가?

주요 결과

SPS는 강-볼록, 볼록, 비-볼록 매끄러운 설정에서 SGD에 대한 수렴 보장을 제공한다.
SPS_max는 상한 γ_b와 최적 목표 차이 σ^2에 의존하는 이웃으로 선형 수렴 속도를 달성한다.
보간 영역에서 SPS는 문제 의존 상수나 추가 오버헤드 없이 해를 빠르게 수렴하도록 SGD를 가능하게 한다.
상수 스텝 사이즈 영역에서 SPS는 특정 경계 하에서 전통적 상수 스텝 SGD와 일치하거나 개선되는 수렴 거동을 보여준다.
실험 결과는 합성 데이터, 딥 매트릭스 인자화, 커널 기반 이진 분류 및 심층 네트워크에 걸친 과잉 매개화 모델에서 SPS가 여러 최적화 방법보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.