[논문 리뷰] Optimizing Network Performance for Distributed DNN Training on GPU Clusters: ImageNet/AlexNet Training in 1.5 Minutes
이 논문은 GradientFlow를 제시한다. 이는 커뮤니케이션 백엔드와 네트워크 최적화(느린 모든축상(Allreduce)과 조밀-대-희소 커뮤니케이션)를 통해 GPU 클러스터에서 분산 DNN 학습을 가속화하고, ImageNet/AlexNet 및 ImageNet/ResNet-50에서 매우 높은 속도향상을 달성한다.
It is important to scale out deep neural network (DNN) training for reducing model training time. The high communication overhead is one of the major performance bottlenecks for distributed DNN training across multiple GPUs. Our investigations have shown that popular open-source DNN systems could only achieve 2.5 speedup ratio on 64 GPUs connected by 56 Gbps network. To address this problem, we propose a communication backend named GradientFlow for distributed DNN training, and employ a set of network optimization techniques. First, we integrate ring-based allreduce, mixed-precision training, and computation/communication overlap into GradientFlow. Second, we propose lazy allreduce to improve network throughput by fusing multiple communication operations into a single one, and design coarse-grained sparse communication to reduce network traffic by only transmitting important gradient chunks. When training ImageNet/AlexNet on 512 GPUs, our approach achieves 410.2 speedup ratio and completes 95-epoch training in 1.5 minutes, which outperforms existing approaches.
연구 동기 및 목표
- 대규모 DNN의 학습 시간을 줄이기 위해 분산 학습의 통신 병목을 완화한다.
- 56 Gbps 네트워크에서 수백 개의 GPU로 확장하는 기존 오픈 소스 DNN 시스템의 한계를 평가한다.
- 처 throughput를 개선하고 네트워크 트래픽을 줄이기 위한 Enhancements가 포함된 커뮤니케이션 백엔드를 개발한다.
- ImageNet에서 AlexNet과 ResNet-50으로 효과를 입증하여 속도향상을 정량화한다.
- 기존 접근 방식과의 비교 기준선을 제공하고 활용성의 남아 있는 격차를 강조한다.
제안 방법
- System-I 분산 DNN 시스템의 커뮤니케이션 백엔드로서 GradientFlow를 구현한다.
- 링 기반의 allreduce, 혼합 정밀도 학습, 계산/통신 중첩을 통합한다.
- 여러 그래디언트 전송을 더 적고 큰 연산으로 병합하기 위한 느린(allreduce) 기법을 도입한다.
- 모델 품질을 유지하면서 중요한 그래디언트 청크만 전송하도록 조밀-대-희소(commmunication) 설계를 제시한다.
실험 결과
연구 질문
- RQ1링 기반 allreduce가 혼합 정밀도와 중첩과 함께 대형 GPU 클러스터에서 거의 선형 확장을 달성할 수 있는가?
- RQ2느린 allreduce와 조밀-대-희소 커뮤니케이션이 ImageNet의 AlexNet와 ResNet-50에서 네트워크 트래픽을 줄이고 처리량을 향상시키는 정도는 어느 정도인가?
- RQ356 Gbps 네트워크에서 Gloo, NCCL, MPI 등 기존 백엔드와 비교했을 때 처리량과 활용도는 어떠한가?
- RQ4이러한 최적화가 대규모 ImageNet 실험의 학습 시간과 속도향상에 어떤 영향을 미치는가?
주요 결과
- 제안된 접근법으로 512 GPU에서 AlexNet은 410.2x, ResNet-50은 434.1x의 속도향상을 달성한다.
- ImageNet/AlexNet 학습은 512 GPU에서 95 에폭을 1.5분에 달성한다.
- ImageNet/ResNet-50 학습은 512 GPU에서 90 에폭을 7.3분에 달성한다.
- Jia 등(1024 GPU에서 4분)과 비교하면 본 접근법이 2.6배 빠르다.
- Akiba 등(1024 GPU에서 15분)과 비교하면 본 접근법이 2.1배 빠르다.
- 최적화에도 불구하고 GPU 자원 활용도는 선형에 크게 미달하며, 예를 들어 Cluster-V에서 AlexNet 18.5%, ResNet-50 26.2%에 불과하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.