QUICK REVIEW

[논문 리뷰] Towards Explaining the Regularization Effect of Initial Large Learning Rate in Training Neural Networks

Yuanzhi Li, Colin Wei|arXiv (Cornell University)|2019. 07. 10.

Stochastic Gradient Optimization Techniques참고 문헌 40인용 수 124

한 줄 요약

본 논문은 두 가지 유형의 패턴 설정에서 학습 순서를 분석하고 CIFAR-10 패치를 활용하여, 큰 초기 학습률에 이어 애나일링(annealing)을 하는 것이 작은 초기 학습률보다 일반화에 더 잘 작용하는 이유를 이론적이고 실험적으로 설명한다.

ABSTRACT

Stochastic gradient descent with a large initial learning rate is widely used for training modern neural net architectures. Although a small initial learning rate allows for faster training and better test performance initially, the large learning rate achieves better generalization soon after the learning rate is annealed. Towards explaining this phenomenon, we devise a setting in which we can prove that a two layer network trained with large initial learning rate and annealing provably generalizes better than the same network trained with a small learning rate from the start. The key insight in our analysis is that the order of learning different types of patterns is crucial: because the small learning rate model first memorizes easy-to-generalize, hard-to-fit patterns, it generalizes worse on hard-to-generalize, easier-to-fit patterns than its large learning rate counterpart. This concept translates to a larger-scale setting: we demonstrate that one can add a small patch to CIFAR-10 images that is immediately memorizable by a model with small initial learning rate, but ignored by the model with large learning rate until after annealing. Our experiments show that this causes the small learning rate model's accuracy on unmodified images to suffer, as it relies too much on the patch early on.

연구 동기 및 목표

큰 초기 학습률(LR)이 애나일링과 함께 시작하는 것이 시작부터 작은 LR보다 일반화 성능이 향상되는 이유를 이해하도록 동기를 부여한다.
두 패턴 데이터 분포를 제시하여 두 층 네트워크에서 학습 순서의 효과를 연구한다.
학습 순서가 일반화에 미치는 영향을 이론적 결과와 실제 관찰과 일치하는 회귀 분석으로 보여준다.

제안 방법

특정 U 분해를 이용하여 두 가지 데이터 구성요소(P: 일반화하기 쉬움, 적합하기 어려움; Q: 적합하기 쉬움, 일반화하기 어려움)를 각각 다루는 2-layer ReLU 네트워크를 정의한다.
두 가지 패턴 유형의 데이터 분포를 구성하고 각 유형의 샘플 비율을 p와 q로 고정한다.
구면 가우시안 노이즈가 있는 SGD와 큰 LR에서 시작해 애나일링으로 전환하는 두 단계 학습률 스케줄을 사용하여 학습 다이내믹스를 분석한다.
패턴 학습 순서와 일반화 측면에서 큰-LR+애나일링과 작은-LR의 차이를 비교하는 비공식 정리를 도출한다.
네트워크 출력은 Q-패턴에 대한 구성요소 g_t(x)와 P-패턴에 대한 구분 r_t(x)로 분해되어 학습 진행 상황을 추적한다.

실험 결과

연구 질문

RQ1두 패턴 데이터 분포에 대해 큰 초기 LR와 애나일링이 작은 초기 LR보다 일반화에 더 유리한가?
RQ2네트워크가 서로 다른 패턴 유형을 학습하는 순서가 최종 일반화에 어떤 영향을 미치는가?
RQ3학습 순서 현상을 실험적으로 관찰할 수 있는가(예: CIFAR-10의 메모라이제이션 가능한 패치와 같은 제어 실험을 통해)?

주요 결과

구축된 데이터셋에 대해, 큰 초기 LR에 이어 애나일링을 적용한 2-layer 네트워크가 일반화에 어려운 패턴을 먼저 학습하고 이후 애나일링으로 인해 쉬운 패턴을 학습하는 순서를 보인다.
작은 초기 LR은 일반화하기 쉬운 패턴과 일반화하기 어려운 패턴을 빠르게 학습한 뒤 이를 과적합하고, 그로 인해 학습 후 일반화가 더 어려운 패턴에서 일반화 성능이 떨어진다.
대략 p에 비례한(해석상 O(p) 정도의) 차이로 큰-LR-애나일링 방법의 최종 테스트 오차가 작은-LR 방법보다 더 작다.
일부 패턴 구성요소에서 암기 편향으로 인해 작은-LR 방법이 더 나은 학습 손실을 달성하더라도 테스트 오차는 더 나쁠 수 있다는 하한을 제시한다.
활성화 전에 잡음 추가 후 특정 에포크에서 감소시키는 분석에 기반한 완화 전략은 큰-LR 보장을 따라가면서 로버스트성을 향상시킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.