QUICK REVIEW

[논문 리뷰] Painless Stochastic Gradient: Interpolation, Line-Search, and Convergence Rates

Sharan Vaswani, Aaron Mishkin|arXiv (Cornell University)|2019. 05. 23.

Stochastic Gradient Optimization Techniques인용 수 84

한 줄 요약

이 논문은 Armijo와 Lipschitz 선탐색을 이용한 SGD 및 SEG 변형을 도입하여 보간(interpolation) 하에서 자동으로 스텝 크기를 설정하고, 볼록성, 강볼록성, 비볼록성 및 안장점 문제에 대해 빠른 수렴 속도를 보이며 실험적으로도 경쟁력 있는 성능을 보여준다.

ABSTRACT

Recent works have shown that stochastic gradient descent (SGD) achieves the fast convergence rates of full-batch gradient descent for over-parameterized models satisfying certain interpolation conditions. However, the step-size used in these works depends on unknown quantities and SGD's practical performance heavily relies on the choice of this step-size. We propose to use line-search techniques to automatically set the step-size when training models that can interpolate the data. In the interpolation setting, we prove that SGD with a stochastic variant of the classic Armijo line-search attains the deterministic convergence rates for both convex and strongly-convex functions. Under additional assumptions, SGD with Armijo line-search is shown to achieve fast convergence for non-convex functions. Furthermore, we show that stochastic extra-gradient with a Lipschitz line-search attains linear convergence for an important class of non-convex functions and saddle-point problems satisfying interpolation. To improve the proposed methods' practical performance, we give heuristics to use larger step-sizes and acceleration. We compare the proposed algorithms against numerous optimization methods on standard classification tasks using both kernel methods and deep networks. The proposed methods result in competitive performance across all models and datasets, while being robust to the precise choices of hyper-parameters. For multi-class classification using deep networks, SGD with Armijo line-search results in both faster convergence and better generalization.

연구 동기 및 목표

과적합 매개변수화(over-parameterized) 및 보간 모델에서 SGD의 자동 스텝 사이즈 선택을 동기화한다.
보간 하에서 Armijo 선탐색을 사용하는 SGD의 수렴 속도를 볼록 및 강볼록 설정에서 전체 배치 GD와 일치하도록 증명한다.
라인-탐색 변형을 통해 비볼록 최적화 및 안장점 문제로 확장한다.
RSI와 보간이 있을 때 선형 수렴을 확립하고 Lipschitz 선탐색을 사용하는 확률적 추가-그래디언트(SEG)를 제안한다.
커널 방법과 심층 신경망 전반에 걸친 실용적 휴리스틱과 경험적 검증을 제공한다.

제안 방법

Armijo 선탐색을 f_{ik}(w_k)의 미니배치 기반 선 조건과 그래디언트 노름으로 SGD에 적용한다.
수렴 속도를 증명한다: 보강 조건 하에서 강볼록 및 볼록 케이스에서 전체 배치 GD와 일치하는 선형 수렴 속도.
보간 및 성장 조건을 만족하는 비볼록 함수에 대해 Armijo 선탐색을 사용하는 SGD가 O(1/T) 속도를 달성한다.
비볼록 RSI 문제를 다루고 보간에서 선형 수렴을 증명하기 위해 SEG에 Lipschitz 선탐색을 도입한다.
라인-탐색 성능과 견고성을 개선하기 위한 실용적 재설정 및 가속 휴리스틱을 제공한다.

실험 결과

연구 질문

RQ1Armijo 기반 선탐색이 보간에서convex 및 strongly convex 설정에서 SGD가 전체 배치 수렴 속도에 도달하도록 할 수 있는가?
RQ2비볼록/보간 체제에서 SGD의 선탐색 수렴 보장은 무엇인가?
RQ3Lipchitz 선탐색을 가진 SEG가 보간 하에서 RSI를 만족하는 비볼록 문제 및 특정 안장점 문제에 대해 선형 수렴을 달성할 수 있는가?
RQ4실용적 휴리스틱(스텝 크기 재설정, 가속)이 보간 가능 체제에서 성능과 견고성에 어떤 영향을 주는가?

주요 결과

보간 하에서 Armijo 선탐색을 갖춘 SGD가 결정적 수렴 속도를 달성하여 전체 배치 GD와 일치하는 볼록 및 강볼록 함수에 수렴한다.
보간 및 성장 조건을 만족하는 비볼록 함수에 대해 Armijo 선탐색을 갖춘 SGD가 O(1/T) 속도에 도달한다.
Lipschitz 선탐색을 갖춘 SEG가 보간 하에서 RSI를 만족하는 비볼록 문제 및 특정 안장점 문제에 대해 선형 수렴을 달성한다.
메서드가 커널 방법 및 심층 신경망 전반에서 경쟁력 있는 성능을 보이며 심층 학습 과제에서 더 빠른 수렴과 더 나은 일반화를 보여준다.
실용적 휴리스틱(더 큰 스텝 사이즈, 재설정 전략 및 가속)은 정확한 Lipschitz 상수를 필요로 하지 않으면서 실행 시간과 견고성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.