QUICK REVIEW
[논문 리뷰] Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes
Takuya Akiba, Shuji Suzuki|arXiv (Cornell University)|2017. 11. 12.
Advanced Neural Network Applications참고 문헌 6인용 수 281
한 줄 요약
이 논문은 1024대의 Tesla P100 GPU를 사용하고 미니배치 32k로 ImageNet에서 ResNet-50을 15분 만에 학습시키며, RMSprop 워밍업, 느린 시작 학습률, 이동 평균 없이 BN을 유지하는 방식으로 약 74.9% top-1 정확도를 유지한다.
ABSTRACT
We demonstrate that training ResNet-50 on ImageNet for 90 epochs can be achieved in 15 minutes with 1024 Tesla P100 GPUs. This was made possible by using a large minibatch size of 32k. To maintain accuracy with this large minibatch size, we employed several techniques such as RMSprop warm-up, batch normalization without moving averages, and a slow-start learning rate schedule. This paper also describes the details of the hardware and software of the system used to achieve the above performance.
연구 동기 및 목표
- 대규모 데이터셋에서 광범위한 병렬성을 이용한 표준 CNN의 초고속 학습을 시연한다.
- 매우 큰 미니배치를 사용해도 높은 정확도를 유지할 수 있음을 보여준다.
- 확장 가능한 학습을 가능하게 하는 하드웨어/소프트웨어 스택 및 학습 절차를 상세히 기술한다.
- 대규모에서의 최적화 안정화를 가능하게 하는 방법들을 식별하고 검증한다.
제안 방법
- ImageNet에서 90 에폭 동안 1024 GPUs로 32k 미니배치를 사용한다.
- 초기 최적화를 완화하고 SGD로 원활하게 전환하기 위해 RMSprop 워밍업을 적용한다.
- 초기 최적화 난이도를 완화하기 위한 느린 시작 학습률 스케줄을 구현한다.
- 배치 정규화의 이동 평균 대신 마지막 미니배치의 통계치를 사용하고 all-reduce를 통해 동기화한다.
- Chainer 및 ChainerMN을 NCCL 및 Open MPI와 함께 사용하고, 통신 오버헤드를 줄이기 위해 반정밀도(half-precision)를 활용한다.
- 재현 가능한 대규모 학습을 가능하게 하는 상세한 하드웨어(MN-1 클러스터) 및 소프트웨어 구성을 제공한다.
실험 결과
연구 질문
- RQ132k의 미니배치 크기로 ImageNet에서 ResNet-50을 학습하더라도 정확도가 희생되지 않는가?
- RQ2extremely minibatch SGD를 안정화하기 위해 필요한 특정 학습 절차 조정(예: 옵티마이저 워밍업, 느린 시작 LR, BN 통계 처리)은 무엇인가?
- RQ3초대형 미니배치로 학습할 때 필요한 하드웨어/소프트웨어 요구사항과 확장성 특성은 무엇인가?
주요 결과
| 팀 | 하드웨어 | 소프트웨어 | 미니배치 크기 | 시간 | 정확도 |
|---|---|---|---|---|---|
| He et al. | Tesla P100 × 8 | Caffe | 256 | 29 hr | 75.3 % |
| Goyal et al. | Tesla P100 × 256 | Caffe2 | 8,192 | 1 hr | 76.3 % |
| Codreanu et al. | KNL 7250 × 720 | Intel Caffe | 11,520 | 62 min | 75.0 % |
| You et al. | Xeon 8160 × 1600 | Intel Caffe | 16,000 | 31 min | 75.3 % |
| This work | Tesla P100 × 1024 | Chainer | 32,768 | 15 min | 74.9 % |
- 32k 미니배치와 1024 GPUs에서 ImageNet에 대한 90 에폭 학습이 74.9% Top-1 정확도 달성.
- 총 학습 시간은 15분(1024 GPUs에서 90 에폭당 실행당 897.9 ± 3.3초).
- 스케일링 효율은 단일 GPU 기준 70%, 단일 노드(8 GPUs) 기준으로는 80%.
- 이전 연구와 비교하여, 극단적 미니배치 학습은 알고리즘 및 시스템 설계에 주의하면 가능하다.
- 이 방법은 대형 미니배치 크기임에도 이전의 ResNet-50 결과와 비교할 만큼의 안정성과 정확도를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.