QUICK REVIEW

[논문 리뷰] Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes

Takuya Akiba, Shuji Suzuki|arXiv (Cornell University)|2017. 11. 12.

Advanced Neural Network Applications참고 문헌 6인용 수 281

한 줄 요약

이 논문은 1024대의 Tesla P100 GPU를 사용하고 미니배치 32k로 ImageNet에서 ResNet-50을 15분 만에 학습시키며, RMSprop 워밍업, 느린 시작 학습률, 이동 평균 없이 BN을 유지하는 방식으로 약 74.9% top-1 정확도를 유지한다.

ABSTRACT

We demonstrate that training ResNet-50 on ImageNet for 90 epochs can be achieved in 15 minutes with 1024 Tesla P100 GPUs. This was made possible by using a large minibatch size of 32k. To maintain accuracy with this large minibatch size, we employed several techniques such as RMSprop warm-up, batch normalization without moving averages, and a slow-start learning rate schedule. This paper also describes the details of the hardware and software of the system used to achieve the above performance.

연구 동기 및 목표

대규모 데이터셋에서 광범위한 병렬성을 이용한 표준 CNN의 초고속 학습을 시연한다.
매우 큰 미니배치를 사용해도 높은 정확도를 유지할 수 있음을 보여준다.
확장 가능한 학습을 가능하게 하는 하드웨어/소프트웨어 스택 및 학습 절차를 상세히 기술한다.
대규모에서의 최적화 안정화를 가능하게 하는 방법들을 식별하고 검증한다.

제안 방법

ImageNet에서 90 에폭 동안 1024 GPUs로 32k 미니배치를 사용한다.
초기 최적화를 완화하고 SGD로 원활하게 전환하기 위해 RMSprop 워밍업을 적용한다.
초기 최적화 난이도를 완화하기 위한 느린 시작 학습률 스케줄을 구현한다.
배치 정규화의 이동 평균 대신 마지막 미니배치의 통계치를 사용하고 all-reduce를 통해 동기화한다.
Chainer 및 ChainerMN을 NCCL 및 Open MPI와 함께 사용하고, 통신 오버헤드를 줄이기 위해 반정밀도(half-precision)를 활용한다.
재현 가능한 대규모 학습을 가능하게 하는 상세한 하드웨어(MN-1 클러스터) 및 소프트웨어 구성을 제공한다.

실험 결과

연구 질문

RQ132k의 미니배치 크기로 ImageNet에서 ResNet-50을 학습하더라도 정확도가 희생되지 않는가?
RQ2extremely minibatch SGD를 안정화하기 위해 필요한 특정 학습 절차 조정(예: 옵티마이저 워밍업, 느린 시작 LR, BN 통계 처리)은 무엇인가?
RQ3초대형 미니배치로 학습할 때 필요한 하드웨어/소프트웨어 요구사항과 확장성 특성은 무엇인가?

주요 결과

팀	하드웨어	소프트웨어	미니배치 크기	시간	정확도
He et al.	Tesla P100 × 8	Caffe	256	29 hr	75.3 %
Goyal et al.	Tesla P100 × 256	Caffe2	8,192	1 hr	76.3 %
Codreanu et al.	KNL 7250 × 720	Intel Caffe	11,520	62 min	75.0 %
You et al.	Xeon 8160 × 1600	Intel Caffe	16,000	31 min	75.3 %
This work	Tesla P100 × 1024	Chainer	32,768	15 min	74.9 %

32k 미니배치와 1024 GPUs에서 ImageNet에 대한 90 에폭 학습이 74.9% Top-1 정확도 달성.
총 학습 시간은 15분(1024 GPUs에서 90 에폭당 실행당 897.9 ± 3.3초).
스케일링 효율은 단일 GPU 기준 70%, 단일 노드(8 GPUs) 기준으로는 80%.
이전 연구와 비교하여, 극단적 미니배치 학습은 알고리즘 및 시스템 설계에 주의하면 가능하다.
이 방법은 대형 미니배치 크기임에도 이전의 ResNet-50 결과와 비교할 만큼의 안정성과 정확도를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.