Skip to main content
QUICK REVIEW

[논문 리뷰] Large Batch Training of Convolutional Networks

Yang You, Igor Gitman|arXiv (Cornell University)|2017. 08. 13.
Advanced Neural Network Applications참고 문헌 10인용 수 509
한 줄 요약

논문은 Layer-wise Adaptive Rate Scaling (LARS)을 도입하여 CNN에서 대형 배치 동기 SGD를 가능하게 하며, AlexNet과 ResNet-50이 정확도 손실 없이 최대 32K의 배치 크기로 학습할 수 있도록 한다.

ABSTRACT

A common way to speed up training of large convolutional networks is to add computational units. Training is then performed using data-parallel synchronous Stochastic Gradient Descent (SGD) with mini-batch divided between computational units. With an increase in the number of nodes, the batch size grows. But training with large batch size often results in the lower model accuracy. We argue that the current recipe for large batch training (linear learning rate scaling with warm-up) is not general enough and training may diverge. To overcome this optimization difficulties we propose a new training algorithm based on Layer-wise Adaptive Rate Scaling (LARS). Using LARS, we scaled Alexnet up to a batch size of 8K, and Resnet-50 to a batch size of 32K without loss in accuracy.

연구 동기 및 목표

  • 데이터 병렬 SGD를 사용하여 큰 글로벌 배치 크기로 CNN을 학습하는 데 따른 도전과제를 동기부여하고 분석한다.
  • 사전 학습과 함께 표준 선형 학습률 스케일링이 왜 실패하고 발산을 일으킬 수 있는지 조사한다.
  • 훈련을 안정화하기 위한 계층별 적응 학습률 체계(LARS)를 제안하고 평가한다.
  • AlexNet, AlexNet-BN, ResNet-50에서 LARS의 효과를 배치 크기 32K까지 시演한다.

제안 방법

  • 단일 글로벌 학습률을 사용할 때 대형 배치 SGD의 불안정성을 분석한다.
  • 가중치 노름과 기울기 노름의 비율에서 영감을 얻은 계층당 학습률을 도입한다: lambda^l = eta * ||w^l|| / (||∇L(w^l)|| + beta*||w^l||).
  • 각 계층을 고유의 로컬 학습률로 업데이트하는 동안 글로벌 모멘텀과 가중치 감소를 적용한다.
  • SGD with momentum에서 LARS를 다항 감쇠 일정과 함께 구현하여 정확도 손실 없이 대형 미니배치를 가능하게 한다.
  • 전역 학습률 gamma_t를 통해 워밍업 유사 전략을 사용하고, 계층별 비율 lambda^l로 로컬 학습률을 조정한다.
  • 실험적으로 iter_size로 대형 배치를 분할하여 GPU에서 B를 최대 32K까지 시뮬레이션하고, 베이스라인 소배치 학습과 비교한다.

실험 결과

연구 질문

  • RQ1계층당 적응 학습률을 사용하여 대형 배치 CNN 학습이 소배치 정확도에 필적할 수 있는가?
  • RQ2Layer-wise Adaptive Rate Scaling (LARS)이 대형 배치 크기에서 학습을 안정화하고 발산을 방지하는가?
  • RQ3LARS를 사용하면 어떤 배치 크기(32K까지)와 아키텍처가 정확도 손실 없이 학습될 수 있는가?
  • RQ4학습률 전략(워밍업, 계층당 LR, BN vs 비-BN)이 수렴 및 최종 정확도에 어떤 영향을 미치는가?

주요 결과

  • LARS는 AlexNet 및 ResNet-50이 32K까지의 배치 크기로 학습할 수 있도록 하며 보고된 결과에서 정확도 손실이 보고되지 않는다.
  • 대형 배치(16K, 32K)를 사용한 AlexNet-BN은 기준 정확도에 근접한 정확도를 유지하며, LR 및 워밍업을 조정하면 완화될 수 있는 소폭의 손실이 있다.
  • BN은 대형 배치에서 안전한 LR 범위를 넓히고 큰 학습률로의 수렴을 개선한다.
  • LARS가 없으면 대형 배치가 발산하거나 워밍업과 BN에도 불구하고 상당한 정확도 손실이 발생하는 반면, LARS를 사용하면 계층 전반의 안정성이 향상된다.
  • 매우 큰 배치로 더 오래 학습하면 정확도를 회복할 수 있으며, 배치가 극도로 큰 경우(예: AlexNet-BN의 32K)에서도 가능하다.
  • LARS로 32K까지 확장된 ResNet-50은 그들의 학습 설정하에서 256-B 기준선에 비해 유사한 top-1 정확도를 달성하지만, 더 공격적인 증강/테스트를 사용한 최첨단과 항상 같지는 않다.
  • 계층별 업데이트는 초기 가중치 스케일에 대한 민감도를 줄이고 학습 역학의 계층별 안정화를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.