QUICK REVIEW

[논문 리뷰] Accelerating SGD with momentum for over-parameterized learning

Chaoyue Liu, Mikhail Belkin|arXiv (Cornell University)|2018. 10. 31.

Advanced Neural Network Applications참고 문헌 28인용 수 36

한 줄 요약

이 논문은 과다 파rameter화되고 보간되는 설정에서 표준 SGD보다 가속화된 수렴을 가능하게 하는 보완 항을 갖는 수정된 Nesterov SGD인 MaSS(Momentum-added Stochastic Solver)를 제안한다. MaSS는 표준 SGD와 동일한 수렴 범위를 확보하면서도 전체 배치 크기의 결정론적 극한에서 최적의 Nesterov 가속률을 달성하며, 세 가지의 별개의 미니배치 스케일링 영역을 규명한다: 선형, 점진적 감소, 포화.

ABSTRACT

Nesterov SGD is widely used for training modern neural networks and other machine learning models. Yet, its advantages over SGD have not been theoretically clarified. Indeed, as we show in our paper, both theoretically and empirically, Nesterov SGD with any parameter selection does not in general provide acceleration over ordinary SGD. Furthermore, Nesterov SGD may diverge for step sizes that ensure convergence of ordinary SGD. This is in contrast to the classical results in the deterministic scenario, where the same step size ensures accelerated convergence of the Nesterov's method over optimal gradient descent. To address the non-acceleration issue, we introduce a compensation term to Nesterov SGD. The resulting algorithm, which we call MaSS, converges for same step sizes as SGD. We prove that MaSS obtains an accelerated convergence rates over SGD for any mini-batch size in the linear setting. For full batch, the convergence rate of MaSS matches the well-known accelerated rate of the Nesterov's method. We also analyze the practically important question of the dependence of the convergence rate and optimal hyper-parameters on the mini-batch size, demonstrating three distinct regimes: linear scaling, diminishing returns and saturation. Experimental evaluation of MaSS for several standard architectures of deep networks, including ResNet and convolutional networks, shows improved performance over SGD, Nesterov SGD and Adam.

연구 동기 및 목표

과다 파arameter화된 모델에 대해 Nesterov SGD의 이론적 및 실험적 가속화 부족을 해결하기 위해.
Nesterov SGD가 결정론적 설정에서는 성공했음에도 불구하고, 과다 파arameter화된 설정에서 표준 SGD보다 가속화되지 않는 이유를 규명하기 위해.
표준 SGD와 동일한 스텝 사이즈 범위에서 모멘텀 기반 가속화를 가능하게 하는 새로운 알고리즘을 설계하기 위해.
가속화된 확률적 최적화에서 수렴 속도와 최적 하이퍼파ram터가 미니배치 크기에 어떻게 의존하는지 분석하기 위해.
딥 네ural 네트워크에서 MaSS를 검증하여, SGD, SGD+Nesterov, Adam보다 향상된 최적화 및 일반화 성능을 보여주기 위해.

제안 방법

보상 항을 포함한 모멘텀 업데이트에서 안정성과 수렴 가속화를 가능하게 하는 두 단계 업데이트 규칙을 갖는 MaSS를 도입한다.
알고리즘은 확률적 그래디언트와 기울기 비례 보상 성분을 포함한 수정된 모멘텀 항을 사용하여 가중치를 업데이트한다.
보상 항은 표준 SGD와 동일한 스텝 사이즈에서 수렴을 보장하기 위해 유도되며, Nesterov SGD의 불안정성을 상쇄한다.
이론적 분석은 MaSS가 선형 설정에서 가속된 수렴을 달성하고, 배치 크기가 전체일 경우 결정론적 Nesterov 속도와 일치함을 보여준다.
이 방법은 세 가지 별개의 미니배치 스케일링 영역: 선형, 점진적 감소, 포화를 규명하며, 분석적으로 유도된 임계 배치 크기 $m_1^*$ 및 $m_2^*$를 도출한다.
실험적 평가는 ResNet, CNN, 완전 연결 네트워크를 사용하여 MNIST 및 CIFAR-10에서 수행되었으며, 안정성을 유지하기 위해 학습률 감소와 리스타트 전략을 적용하였다.

실험 결과

연구 질문

RQ1왜 Nesterov SGD는 과다 파arameter화되고 보간되는 설정에서 표준 SGD보다 가속화되지 않는가?
RQ2보정된 모멘텀 방법이 표준 SGD와 동일한 스텝 사이즈에서 수렴 안정성과 가속화를 동시에 달성할 수 있는가?
RQ3가속화된 확률적 최적화에서 수렴 속도는 미니배치 크기에 어떻게 의존하는가?
RQ4수렴 속도와 최적 하이퍼파aram터의 별개의 스케일링 영역은 미니배치 크기에 대해 어떻게 나타나는가?
RQ5제안된 MaSS 알고리즘이 딥 네트워크에서 SGD, SGD+Nesterov, Adam보다 최적화 및 일반화 성능에서 뛰어나게 되는가?

주요 결과

Nesterov SGD는 확률적이고 과다 파arameter화된 설정에서 표준 SGD보다 가속화되지 않으며, 수렴하는 SGD의 스텝 사이즈 범위 내에서도 발산할 수 있다.
MaSS는 표준 SGD와 동일한 스텝 사이즈 범위에서 지수 수렴을 달성하며, 선형 설정에서는 가속된 수렴 속도를 보인다.
전체 배치 크기의 결정론적 경우에서 MaSS는 고전적 Nesterov 방법으로 간소화되며, 잘 알려진 최적 수렴 속도를 정확히 따라간다.
반복당 수렴 속도 $s(m)$는 세 가지 별개의 영역을 나타내며: 선형 스케일링, 점진적 감소, 포화이며, 임계 배치 크기 $m_1^*$ 및 $m_2^*$는 분석적으로 유도되었다.
미니배치 크기 $m=64$일 때, MaSS의 최적 $\tilde{\kappa}_m$ 값은 $[2,25]$ 범위에 있으며, $\alpha=0.05$는 $\gamma=0.90$에 해당한다.
실험 결과는 MaSS가 ResNet, CNN, 완전 연결 아키텍처를 사용하여 CIFAR-10 및 MNIST에서 훈련 손실 감소와 테스트 정확도 면에서 SGD, SGD+Nesterov, Adam을 모두 능가함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.