Skip to main content
QUICK REVIEW

[논문 리뷰] SGDR: Stochastic Gradient Descent with Warm Restarts

Ilya Loshchilov, Frank Hutter|arXiv (Cornell University)|2016. 08. 13.
Domain Adaptation and Few-Shot Learning참고 문헌 28인용 수 1,741
한 줄 요약

확률적 경사 하강법(SGD)에 코사인 어닐링(warm restarts)을 적용한 SGDR로 딥 뉴럴 네트워크의 학습 속도와 일반화 성능을 향상시키고, CIFAR-10/100에서 최첨단 성과를 달성하며 스냅샷 앙상블을 가능하게 한다.

ABSTRACT

Restart techniques are common in gradient-free optimization to deal with multimodal functions. Partial warm restarts are also gaining popularity in gradient-based optimization to improve the rate of convergence in accelerated gradient schemes to deal with ill-conditioned functions. In this paper, we propose a simple warm restart technique for stochastic gradient descent to improve its anytime performance when training deep neural networks. We empirically study its performance on the CIFAR-10 and CIFAR-100 datasets, where we demonstrate new state-of-the-art results at 3.14% and 16.21%, respectively. We also demonstrate its advantages on a dataset of EEG recordings and on a downsampled version of the ImageNet dataset. Our source code is available at https://github.com/loshchil/SGDR

연구 동기 및 목표

  • 깊은 신경망 학습에서 SGD의 느린 실시간 성능을 동기부여하고 해결한다.
  • 수렴 속도를 개선하기 위한 코사인 어닐링이 적용된 간단한 웜 리스타트 메커니즘을 제안한다.
  • CIFAR-10/100에서의 개선을 입증하고 EEG 데이터 및 다운샘플링된 ImageNet에서의 이점을 보여준다.
  • SGDR 궤적에서 얻은 스냅샷으로부터의 앙상블 이점을 탐색한다.
  • 더 빠른 아키텍처 탐색 및 학습 효율성을 가능하게 할 수 있는 잠재성을 강조한다.

제안 방법

  • 사전 정의된 간격으로 모델 가중치를 재설정하지 않고 학습률을 증가시켜 SGD에서 웜 리스타트를 시뮬레이션한다.
  • 각 리스타트 안에서 학습률을 Tmax_i 기간에 걸쳐 최대값에서 최소값으로 코사인 어닐링을 적용한다: eta_t = eta_min^i + 0.5*(eta_max^i - eta_min^i)*(1 + cos(T_cur/T_i * pi)).
  • 실시간 성능을 개선하고 좋은 테스트 오차를 더 빨리 얻기 위해 T_i를 승수 T_mult로 증가시킬 수 있게 한다.
  • 리스타트 간 동일한 eta_max/min를 유지한 단일 또는 소수의 SGDR 실행을 사용하여 하이퍼파라미터 튜닝을 줄인다.
  • 리스타트 전에 얻은 SGDR 스냅샷으로부터 앙상블을 구성하여 정확도를 향상시킨다.
  • WRN 아키텍처에서 기본 대조 학습 일정과 비교하여 SGDR을 통해 재현 가능한 결과를 얻는다.

실험 결과

연구 질문

  • RQ1SGDR이 표준 SGD 스케줄에 비해 학습 속도(목표 테스트 오차에 도달하는 데 걸리는 시간)를 개선하는가?
  • RQ2코사인 어닐링 웜 리스타트와 증가하는 T_i가 더 빠른 수렴과 더 나은 일반화를 가져오는가?
  • RQ3SGDR 궤적의 스냅샷 앙상블이 단일 실행 모델이나 독립 실행에서의 앙상블보다 실질적인 이점을 제공하는가?
  • RQ4SGDR의 이득이 CIFAR를 넘어 EEG 데이터 및 다운샘플링된 ImageNet 구성에도 전이 가능한가?
  • RQ5속도와 정확도의 균형을 맞추는 실용적인 하이퍼파라미터(initial learning rate, T_i, T_mult)는 무엇인가?

주요 결과

  • SGDR은 CIFAR-10에서 표준 일정 대비 경쟁력 있는 테스트 오차를 더 빠르게 달성하며(~4% 영역), CIFAR-100에서 약 ~20%의 개선을 보인다.
  • SGDR 스냅샷으로 구성된 앙상블은 CIFAR-10에서 예시로 3.14% 테스트 오차, CIFAR-100에서 16.21%를 달성하는 등 최첨단에 근접한 개선을 보인다(N=16 실행, M=3 스냅샷).
  • SGDR은 WRN-28-20과 같은 더 넓은 네트워크를 표준 스케줄로 훈련된 좁은 네트워크보다 비슷하거나 더 짧은 예산 내에서 더 나은 정확도를 달성하게 한다.
  • SGDR의 스냅샷은 다양한, 유용한 앙상블 구성원을 제공하여 독립 실행에서 얻은 동등한 앙상블보다 많은 설정에서 우수한 성능을 발휘한다.
  • 예비 실험에서 SGDR이 EEG 데이터세트와 다운샘플링된 ImageNet에서 성능을 향상시키는 등 더 넓은 적용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.