[논문 리뷰] Yet Another Accelerated SGD: ResNet-50 Training on ImageNet in 74.7 seconds
논문은 2,048개 GPU를 사용하여 대형 미니배치로 ImageNet에서 ResNet-50을 훈련시키기 위한 최적화 기법을 제시하며, 실행당 74.7초, top-1 정확도 75.08%, 처리량이 1.73M 이미지/초를 넘는다는 것을 보여준다.
There has been a strong demand for algorithms that can execute machine learning as faster as possible and the speed of deep learning has accelerated by 30 times only in the past two years. Distributed deep learning using the large mini-batch is a key technology to address the demand and is a great challenge as it is difficult to achieve high scalability on large clusters without compromising accuracy. In this paper, we introduce optimization methods which we applied to this challenge. We achieved the training time of 74.7 seconds using 2,048 GPUs on ABCI cluster applying these methods. The training throughput is over 1.73 million images/sec and the top-1 validation accuracy is 75.08%.
연구 동기 및 목표
- 대규모로 분산 딥러닝의 병목 현상을 해결한다.
- 정확도 손실 없이 대형 미니배치 훈련을 가능하게 한다.
- 다중 GPU 클러스터에서 계산, 메모리, 통신 병목 현상을 식별하고 최적화한다.
- MXNet을 사용하여 ABCI 클러스터에서 엔드 투 엔드 성능 향상을 시연한다.
- 대규모 DNN 훈련에 일반화될 수 있는 기법들을 제공한다.
제안 방법
- 큰 배치 훈련의 안정화를 위해 warm-up과 Layer-wise Adaptive Rate Scaling (LARS)을 이용한 확률적 경사하강법을 적용한다.
- 대형 미니배치 크기에서 정확도를 향상시키기 위해 라벨 스무딩을 사용한다.
- 대형 미니배치 설정에서 이동 평균 배치 정규화를 조정한다.
- GPU에서 병렬 초기화와 배치 정규화 계산을 위해 MXNet 프레임워크를 최적화한다.
- 역전파와 함께 집단 데이터 크기를 늘리고 Overlap을 스케줄링하여 allreduce 통신을 재설계한다.
- GPU 커널 최적화와 통신 인식형 레이어 그룹핑으로 병목을 줄인다.
실험 결과
연구 질문
- RQ1대형 미니배치 SGD가 수천 개의 GPU로 확장될 때 ImageNet에서 ResNet-50의 검증 정확도를 유지할 수 있는가?
- RQ2대규모 GPU 클러스터에서 거의 선형 확장을 가능하게 하는 최적화 전략(학습률 스케줄, 정규화 및 통신)은 무엇인가?
- RQ3초기화, 배치 정규화, allreduce 스케줄링과 같은 프레임워크 수준의 최적화가 규모에 따라 처리량과 정확도에 어떤 영향을 미치는가?
주요 결과
| 배치 사이즈 | 프로세서 | DL 라이브러리 | 시간 | 정확도 |
|---|---|---|---|---|
| 81,920 | Tesla V100 x 2,048 | MXNet | 1.2 mins | 75.08% |
- 2,048개의 GPU를 사용하여 ImageNet에서 ResNet-50 훈련을 74.7초에 달성했다.
- 2,048 GPUs까지 77.0%의 확장성으로 1.73백만 이미지/초의 처리량을 달성했다.
- 81,920 미니배치 크기로 75.08%의 top-1 검증 정확도를 달성했다.
- 대형 미니배치 훈련은 워밍업, LARS, 라벨 스무딩을 통해 정확도를 유지할 수 있음을 검증했다.
- 이전의 대형 미니배치 결과 대비 우수한 확장성과 효율성 향상을 시연했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.