QUICK REVIEW

[논문 리뷰] Don't Decay the Learning Rate, Increase the Batch Size

Samuel Smith, Pieter-Jan Kindermans|arXiv (Cornell University)|2017. 11. 01.

Advanced Neural Network Applications참고 문헌 23인용 수 391

한 줄 요약

이 연구는 고정 학습률에서 학습 중 배치 크기를 늘리면 감소하는 학습률 스케줄의 학습 곡선과 테스트 정확도를 재현할 수 있어, 업데이트 수를 줄인 채 대용량 배치 학습이 가능하다는 것을 보여준다.

ABSTRACT

It is common practice to decay the learning rate. Here we show one can usually obtain the same learning curve on both training and test sets by instead increasing the batch size during training. This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam. It reaches equivalent test accuracies after the same number of training epochs, but with fewer parameter updates, leading to greater parallelism and shorter training times. We can further reduce the number of parameter updates by increasing the learning rate $ε$ and scaling the batch size $B \propto ε$. Finally, one can increase the momentum coefficient $m$ and scale $B \propto 1/(1-m)$, although this tends to slightly reduce the test accuracy. Crucially, our techniques allow us to repurpose existing training schedules for large batch training with no hyper-parameter tuning. We train ResNet-50 on ImageNet to $76.1\%$ validation accuracy in under 30 minutes.

연구 동기 및 목표

SGD 기반 최적화에서 학습률 감소가 일반적으로 왜 사용되는지 동기를 부여하고 이해한다.
학습 곡선과 일반화 성능을 맞추기 위해 훈련 중 배치 크기를 늘리는 대안을 제안하고 검증한다.
최적화 알고리즘과 상관없이 대용량 배치 학습이 더 적은 파라미터 업데이트로 비슷한 테스트 정확도를 달성할 수 있음을 보여준다.
다양한 아키텍처와 하드웨어에서 CIFAR-10과 ImageNet에서 실용적인 확장성 이점을 보여준다.

제안 방법

노이즈 스케일 g = ε(N/B − 1)을 분석하기 위해 SGD를 확률 미분방정식으로 모델링한다.
고정된 훈련 에폭에서 학습률 감소와 배치 크기 증가의 등가성을 보여준다.
학습률이 감소할 때처럼 배치 크기가 증가하는 스케줄(B ∝ α일 때 ε가 α만큼 감소)들을 제안하고 테스트한다.
모멘텀에 대해 효과 학습률 ε_eff = ε/(1−m)을 탐구하고 그에 맞춰 배치 크기를 조정한다.
CIFAR-10에서 Wide ResNet으로, ImageNet에서 Inception-ResNet-V2 및 ResNet-50/TPU로 경험적으로 검증한다.
대용량 배치 학습에서 모멘텀의 영향과 누적 동역학를 평가한다.

실험 결과

연구 질문

RQ1고정 학습률에서 학습 중 배치 크기를 늘리는 것이 훈련 역학과 테스트 정확도 모두에 대해 감소하는 학습률 스케줄의 효과를 재현할 수 있는가?
RQ2배치 크기, 학습률, 모멘텀을 어떻게 조정하면 일반화를 유지하면서 파라미터 업데이트를 최소화할 수 있는가?
RQ3일반적인 최적화 알고리즘(SGD, 모멘텀, Nesterov, Adam)과 아키텍처에서 대용량 배치 학습의 실질적 한계와 이점은 무엇인가?
RQ4이러한 전략들이 GPU와 TPU에서 ImageNet 규모의 학습으로 어떻게 확장되는가?

주요 결과

학습 중 배치 크기를 늘리면 SGD, 모멘텀을 가지는 SGD, Nesterov 모멘텀, Ada m에 대해 감소하는 학습률 스케줄과 거의 동일한 테스트 정확도를 얻을 수 있다.
학습률 감소를 배치 크기 증가로 대체하면 성능을 유지하면서 파라미터 업데이트 수를 줄일 수 있다.
더 큰 학습률을 사용하고 배치 크기를 B ∝ ε 또는 B ∝ 1/(1−m)로 스케일링하면 업데이트 수를 더 줄일 수 있으며, 모멘텀에 따라 정확도에 약간의 트레이드오프가 있다.
CIFAR-10에서 Wide ResNet 실험은 감소된 LR, 하이브리드, 증가-B 스케줄을 비교할 때 동일한 학습 곡선을 보여준다.
ImageNet에서 배치당 65,536의 대용량 학습은 Inception-ResNet-V2에서 2,500개 미만의 업데이트로 77–77.5%의 검증 정확도, TPU에서 30분 이내에 ResNet-50에서 76.1%를 달성했다.
대용량 배치 학습은 추가 하이퍼파라미터 튜닝 없이도 벽시계 시간(Wall-clock time)을 대폭 줄일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.