Skip to main content
QUICK REVIEW

[논문 리뷰] Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes

Takuya Akiba, Shuji Suzuki|arXiv (Cornell University)|2017. 11. 12.
Advanced Neural Network Applications참고 문헌 6인용 수 281
한 줄 요약

이 논문은 1024대의 Tesla P100 GPU를 사용하고 미니배치 32k로 ImageNet에서 ResNet-50을 15분 만에 학습시키며, RMSprop 워밍업, 느린 시작 학습률, 이동 평균 없이 BN을 유지하는 방식으로 약 74.9% top-1 정확도를 유지한다.

ABSTRACT

We demonstrate that training ResNet-50 on ImageNet for 90 epochs can be achieved in 15 minutes with 1024 Tesla P100 GPUs. This was made possible by using a large minibatch size of 32k. To maintain accuracy with this large minibatch size, we employed several techniques such as RMSprop warm-up, batch normalization without moving averages, and a slow-start learning rate schedule. This paper also describes the details of the hardware and software of the system used to achieve the above performance.

연구 동기 및 목표

  • 대규모 데이터셋에서 광범위한 병렬성을 이용한 표준 CNN의 초고속 학습을 시연한다.
  • 매우 큰 미니배치를 사용해도 높은 정확도를 유지할 수 있음을 보여준다.
  • 확장 가능한 학습을 가능하게 하는 하드웨어/소프트웨어 스택 및 학습 절차를 상세히 기술한다.
  • 대규모에서의 최적화 안정화를 가능하게 하는 방법들을 식별하고 검증한다.

제안 방법

  • ImageNet에서 90 에폭 동안 1024 GPUs로 32k 미니배치를 사용한다.
  • 초기 최적화를 완화하고 SGD로 원활하게 전환하기 위해 RMSprop 워밍업을 적용한다.
  • 초기 최적화 난이도를 완화하기 위한 느린 시작 학습률 스케줄을 구현한다.
  • 배치 정규화의 이동 평균 대신 마지막 미니배치의 통계치를 사용하고 all-reduce를 통해 동기화한다.
  • Chainer 및 ChainerMN을 NCCL 및 Open MPI와 함께 사용하고, 통신 오버헤드를 줄이기 위해 반정밀도(half-precision)를 활용한다.
  • 재현 가능한 대규모 학습을 가능하게 하는 상세한 하드웨어(MN-1 클러스터) 및 소프트웨어 구성을 제공한다.

실험 결과

연구 질문

  • RQ132k의 미니배치 크기로 ImageNet에서 ResNet-50을 학습하더라도 정확도가 희생되지 않는가?
  • RQ2extremely minibatch SGD를 안정화하기 위해 필요한 특정 학습 절차 조정(예: 옵티마이저 워밍업, 느린 시작 LR, BN 통계 처리)은 무엇인가?
  • RQ3초대형 미니배치로 학습할 때 필요한 하드웨어/소프트웨어 요구사항과 확장성 특성은 무엇인가?

주요 결과

하드웨어소프트웨어미니배치 크기시간정확도
He et al.Tesla P100 × 8Caffe25629 hr75.3 %
Goyal et al.Tesla P100 × 256Caffe28,1921 hr76.3 %
Codreanu et al.KNL 7250 × 720Intel Caffe11,52062 min75.0 %
You et al.Xeon 8160 × 1600Intel Caffe16,00031 min75.3 %
This workTesla P100 × 1024Chainer32,76815 min74.9 %
  • 32k 미니배치와 1024 GPUs에서 ImageNet에 대한 90 에폭 학습이 74.9% Top-1 정확도 달성.
  • 총 학습 시간은 15분(1024 GPUs에서 90 에폭당 실행당 897.9 ± 3.3초).
  • 스케일링 효율은 단일 GPU 기준 70%, 단일 노드(8 GPUs) 기준으로는 80%.
  • 이전 연구와 비교하여, 극단적 미니배치 학습은 알고리즘 및 시스템 설계에 주의하면 가능하다.
  • 이 방법은 대형 미니배치 크기임에도 이전의 ResNet-50 결과와 비교할 만큼의 안정성과 정확도를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.