QUICK REVIEW

[논문 리뷰] The large learning rate phase of deep learning: the catapult mechanism

Aitor Lewkowycz, Yasaman Bahri|arXiv (Cornell University)|2020. 03. 04.

Stochastic Gradient Optimization Techniques참고 문헌 37인용 수 60

한 줄 요약

논문은 경사 하강에서 세 가지 학습률 단계(lazy, catapult, divergent)를 도입하고, 캣폴트 다이나믹스로 더 완만한 극소점으로 이어지는 해석 가능한 유한 폭 모델을 제시하며, 실험적 증거를 통해 실제 심층 네트워크에서 최적의 성능이 종종 큰 학습률의 catapult 단계에 위치한다는 것을 확인한다.

ABSTRACT

The choice of initial learning rate can have a profound effect on the performance of deep networks. We present a class of neural networks with solvable training dynamics, and confirm their predictions empirically in practical deep learning settings. The networks exhibit sharply distinct behaviors at small and large learning rates. The two regimes are separated by a phase transition. In the small learning rate phase, training can be understood using the existing theory of infinitely wide neural networks. At large learning rates the model captures qualitatively distinct phenomena, including the convergence of gradient descent dynamics to flatter minima. One key prediction of our model is a narrow range of large, stable learning rates. We find good agreement between our model's predictions and training dynamics in realistic deep learning settings. Furthermore, we find that the optimal performance in such settings is often found in the large learning rate phase. We believe our results shed light on characteristics of models trained at different learning rates. In particular, they fill a gap between existing wide neural network theory, and the nonlinear, large learning rate, training dynamics relevant to practice.

연구 동기 및 목표

초기 학습률이 딥 네트워크 학습과 일반화에 어떻게 심오하게 영향을 미치는지 동기 부여하고 특성화한다.
세 가지 구분된 학습률 영역을 예측하는 다루기 가능한 유한 폭 모델을 도입한다.
아키텍처에 걸친 현실적 딥 네트워크에서 위상 예측을 검증하여 이론과 실무를 연결한다.
최적 성능은 종종 큰 학습률(카타폴트) 단계에서 발생함을 보여준다.
평탄도와 일반화 역학을 SGD 노이즈로부터 분리하고, 학습률이 주도하는 효과에 초점을 맞춘다.

제안 방법

크지만 유한한 너비와 MSE 손실을 갖는 한 개의 은닉층 선형 네트워크에 대한 정확한 경사 하강 업데이트를 유도한다.
상위 NTK 고유값을 곡률 프록시로 사용하여 세 가지 학습률 체계를 식별하고 분석한다.
d차원 입력과 m개의 훈련 샘플을 갖는 전체 모델로 분석을 확장하고 유사한 업데이트 다이나믹스를 도출한다.
완전 연결, 합성곱, 잔차 네트워크에서 실증 실험을 수행하여 위상 예측을 검증한다.
실험에 따른 ReLU가 실제로 약 12인 건 사례에 따라 c_act 상수를 사용해 실용적 최대 학습률을 추정한다.

실험 결과

연구 질문

RQ1wide하지만 유한한 네트워크에서 다양한 초기 학습률 하에 경사 하강의 동적 위상은 무엇인가?
RQ2학습률이 훈련 중 커널 곡률, 특히 NTK 최상위 고유값에 어떤 영향을 미치는가?
RQ3큰 학습률을 안정적으로 더 완만한 극소점으로 수렴시키는 것이 가능한가, 그리고 이것이 일반화에 어떤 영향을 미치는가?
RQ4이론적 위상 예측이 현실적인 아키텍처와 SGD 설정에서 성립하는가?
RQ5아키텍처, 비선형성, 그리고 최대 안정 학습률 사이의 경험적 관계는 무엇인가?

주요 결과

세 가지 학습률 위상이 존재한다: lazy(eta < 2/lambda_0), catapult(2/lambda_0 < eta < eta_max), divergent(eta > eta_max).
카타폴트 위상에서 초기 손실은 빠른 곡률 감소와 함께 증가했다가, lazy 위상보다 더 완만한 최소값으로 수렴한다.
최대 안정 학습률은 대략 eta_max = c_act./lambda_0이며, c_act는 비선형성에 따라 달라진다(이론상 ≈4, 실제로는 ReLU에서 약 12).
CNN, ResNet, 그리고 완전 연결 신경망에 걸친 실증 결과가 위상 경계와 일치하며 카타폴트 위상에서 최고 성능을 보인다.
최적 성능은 대형 학습률 카타폴트 위상에서 자주 발생하며, 아키텍처와 교육 예산에 관계없이 일관된다.
카타폴트 이후 모델 동작은 거의 일정한 커널을 가진 선형 역학에 비슷해지며, 선형에 가까운 dynamics의 회복을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.