QUICK REVIEW

[논문 리뷰] Tight Dimension Independent Lower Bound on the Expected Convergence Rate for Diminishing Step Sizes in SGD

Phuong Ha Nguyen, Lam M. Nguyen|arXiv (Cornell University)|2019. 01. 01.

Stochastic Gradient Optimization Techniques인용 수 10

한 줄 요약

이 논문은 강凸 함수에 대한 확률적 경사 하강법(SGD)의 기대 수렴 속도에 대해 차원에 의존하지 않는 하한을 확립하며, ICML 2018 및 2019에서 최근 제안된 감소하는 학습률 시퀀스가 모든 반복 및 차원에서 최적에 비해 인자 32 이내임을 증명한다.

ABSTRACT

We study the convergence of Stochastic Gradient Descent (SGD) for strongly convex objective functions. We prove for all $t$ a lower bound on the expected convergence rate after the $t$-th SGD iteration; the lower bound is over all possible sequences of diminishing step sizes. It implies that recently proposed sequences of step sizes at ICML 2018 and ICML 2019 are {\em universally} close to optimal in that the expected convergence rate after {\em each} iteration is within a factor $32$ of our lower bound. This factor is independent of dimension $d$. We offer a framework for comparing with lower bounds in state-of-the-art literature and when applied to SGD for strongly convex objective functions our lower bound is a significant factor $775\cdot d$ larger compared to existing work.

연구 동기 및 목표

감소하는 학습률을 사용하는 강凸 목적 함수에 대해 SGD의 기대 수렴 속도에 대한 통합 하한을 확립하기.
ICML 2018 및 ICML 2019에서 제안된 최근 학습률 시퀀스의 수렴 속도 측면에서의 최적성 평가하기.
최신 문헌에서의 수렴 하한을 비교하기 위한 프레임워크 개발하기.
제안된 하한이 기존 하한보다 775·d 배 더 크다는 것을 보여주기.

제안 방법

모든 가능한 감소하는 학습률 시퀀스에 대해 각 SGD 반복 후 기대 수렴 속도에 대한 하한을 유도하기.
다양한 학습률 시퀀스 간 수렴 속도를 비교하기 위해 새로운 분석 프레임워크 적용하기.
목적 함수의 강凸성으로 인해 차원 d에 의존하지 않는 날카운 하한 유도하기.
유도된 하한을 기존 문헌의 하한과 비교하여 곱셈적 간격 775·d를 보여주기.
모든 가능한 감소하는 학습률 시퀀스에 대한 최악의 경우 분석을 통해 보편성 확보하기.
유도된 하한과 비교하여 알려진 학습률 시퀀스의 최적성 간격 정량화하기.

실험 결과

연구 질문

RQ1감소하는 학습률 시퀀스 중 어떤 것이 강凸 함수에 대한 SGD의 최적 기대 수렴 속도에 얼마나 가까이 올 수 있는가?
RQ2ICML 2018 및 ICML 2019에서 제안된 학습률 시퀀스는 수렴 속도 측면에서 얼마나 최적에 가까운가?
RQ3감소하는 학습률을 사용하는 SGD의 기대 수렴 속도에 대해 차원에 의존하지 않는 하한은 무엇인가?
RQ4제안된 하한은 기존 문헌의 하한과 정량적으로 어떻게 비교되는가?
RQ5다양한 SGD 학습률 전략에 대해 수렴 하한을 비교하기 위한 일반적 프레임워크를 개발할 수 있는가?

주요 결과

논문은 강凸 함수에 대한 SGD의 기대 수렴 속도에 대해 차원에 의존하지 않는 하한을 확립한다.
제안된 하한은 문헌에서 가장 좋은 기존 하한보다 775·d 배 더 크다.
ICML 2018 및 ICML 2019에서 제안된 학습률 시퀀스는 모든 반복 및 모든 차원에서 유도된 하한의 인자 32 이내에 있다.
이 인자 32는 문제의 차원 d에 독립적이며, 모든 설정에서의 거의 최적성 나타낸다.
이 프레임워크를 통해 수렴 하한을 직접 비교할 수 있으며, 이는 이전 연구의 상당한 간격을 드러낸다.
결과적으로, 어떤 감소하는 학습률 시퀀스도 제안된 하한의 인자 32 이내로 기대 수렴 속도를 향상시킬 수 없다는 것을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.