QUICK REVIEW

[논문 리뷰] Accelerating Stochastic Training for Over-parametrized Learning

Chaoyue Liu, Mikhail Belkin|arXiv (Cornell University)|2018. 10. 31.

Stochastic Gradient Optimization Techniques참고 문헌 12인용 수 2

한 줄 요약

이 논문은 MaSS를 제안한다. MaSS는 표준 SGD와 동일한 스텝 사이즈를 사용할 때도 수렴을 보장하는 보정 항을 가진 수정된 Nesterov SGD로, 모든 미니배치 크기에서 가속화된 수렴 속도를 달성한다. 선형 설정에서는 전체 배치 크기의 경우 최적의 Nesterov 가속도를 달성하며, 딥 네트워크 실험에서 SGD, Nesterov SGD, Adam보다 뛰어난 성능을 보인다.

ABSTRACT

Nesterov SGD is widely used for training modern neural networks and other machine learning models. Yet, its advantages over SGD have not been theoretically clarified. Indeed, as we show in our paper, both theoretically and empirically, Nesterov SGD with any parameter selection does not in general provide acceleration over ordinary SGD. Furthermore, Nesterov SGD may diverge for step sizes that ensure convergence of ordinary SGD. This is in contrast to the classical results in the deterministic scenario, where the same step size ensures accelerated convergence of the Nesterov's method over optimal gradient descent. To address the non-acceleration issue, we introduce a compensation term to Nesterov SGD. The resulting algorithm, which we call MaSS, converges for same step sizes as SGD. We prove that MaSS obtains an accelerated convergence rates over SGD for any mini-batch size in the linear setting. For full batch, the convergence rate of MaSS matches the well-known accelerated rate of the Nesterov's method. We also analyze the practically important question of the dependence of the convergence rate and optimal hyper-parameters on the mini-batch size, demonstrating three distinct regimes: linear scaling, diminishing returns and saturation. Experimental evaluation of MaSS for several standard architectures of deep networks, including ResNet and convolutional networks, shows improved performance over SGD, Nesterov SGD and Adam.

연구 동기 및 목표

Nesterov SGD의 이론적·경험적 성능 불일치 문제를 해결하기 위해, 결정론적 설정에서는 성공했지만 스위치적 설정에서는 가속화되지 않거나 발산할 수 있는 문제를 해결한다.
기존의 결정론적 결과와는 달리, 과다 매개변수화된 스위치적 설정에서 Nesterov SGD가 왜 가속화를 제공하지 않는지 규명한다.
Nesterov의 모멘텀 이점을 유지하면서도 스위치적 훈련에서 수렴성과 가속화를 보장하는 수정된 알고리즘을 설계한다.
수렴 속도와 최적 하이퍼파rameter가 미니배치 크기에 따라 어떻게 의존하는지 분석하여 세 가지 명확한 스케일링 영역을 규명한다.
표준 딥 러닝 아키텍처에서 MaSS를 경험적으로 검증하여 SGD, Nesterov SGD, Adam과 비교해 일관된 성능 향상을 입증한다.

제안 방법

표준 SGD와 동일한 스텝 사이즈에서 수렴을 보장하기 위해, Nesterov SGD에 보정 항을 도입하여 모멘텀 업데이트를 보정하고 안정화한다.
현재 반복과 이전 반복 간의 그래디언트 차이에서 유도된 보정 항을 포함한 수정된 업데이트 규칙으로 MaSS를 수립한다.
선형 모델 설정에서 MaSS가 가속화된 수렴 속도를 달성함을 증명하며, 전체 배치 크기의 경우 고전적인 Nesterov 가속도와 일치함을 보인다.
수렴 속도와 최적 스텝 사이즈가 미니배치 크기에 따라 어떻게 의존하는지 분석하여 선형 스케일링, 점진적 수익 감소, 포화 영역의 세 가지 영역을 식별한다.
표준 딥 러닝 프레임워크에 MaSS를 구현하고, 표준 하이퍼파ram터 설정을 사용하여 ResNet과 컨볼루션 네트워크에서 평가한다.

실험 결과

연구 질문

RQ1기존의 결정론적 최적화에서 성공했음에도 불구하고, 왜 Nesterov SGD는 스위치적 과다 매개변수화된 학습에서 가속화를 제공하지 못하는가?
RQ2표준 SGD와 동일한 스텝 사이즈에서 수렴을 보장하면서도 가속화를 달성하는 Nesterov SGD의 수정 버전을 구성할 수 있는가?
RQ3MaSS의 수렴 속도와 최적 하이퍼파ram터 선택은 다양한 영역에서 미니배치 크기에 따라 어떻게 스케일링되는가?
RQ4MaSS는 표준 딥 러닝 벤치마크에서 SGD, Nesterov SGD, Adam보다 실제로 성능이 뛰어나게 되는가?

주요 결과

MaSS는 모든 미니배치 크기에서 SGD에 비해 가속화된 수렴 속도를 달성하며, 전체 배치 크기의 경우 고전적인 Nesterov 가속도와 일치한다.
모든 매개변수 설정에서 Nesterov SGD는 일반적으로 SGD보다 가속화되지 않으며, SGD 수렴을 보장하는 스텝 사이즈에서도 발산할 수 있다.
MaSS에 도입된 보정 항은 훈련을 안정화시키며, 표준 SGD와 동일한 스텝 사이즈에서 수렴을 가능하게 한다.
수렴 속도와 최적 스텝 사이즈가 미니배치 크기에 따라 의존하는 방식은 선형 스케일링, 점진적 수익 감소, 포화의 세 가지 명확한 영역으로 나타난다.
ResNet과 컨볼루션 네트워크에서의 경험적 결과는 MaSS가 훈련 정확도와 일반화 성능에서 SGD, Nesterov SGD, Adam을 모두 초월함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.