Skip to main content
QUICK REVIEW

[论文解读] Optimizing Network Performance for Distributed DNN Training on GPU Clusters: ImageNet/AlexNet Training in 1.5 Minutes

Peng Sun, Wansen Feng|arXiv (Cornell University)|Feb 19, 2019
Advanced Neural Network Applications参考文献 45被引用 50
一句话总结

本论文提出 GradientFlow,一种通信后端和一组网络优化(惰性 allreduce 和粗粒度稀疏通信)以加速在 GPU 集群上的分布式 DNN 训练,在 ImageNet/AlexNet 与 ImageNet/ResNet-50 上实现极高的加速比。

ABSTRACT

It is important to scale out deep neural network (DNN) training for reducing model training time. The high communication overhead is one of the major performance bottlenecks for distributed DNN training across multiple GPUs. Our investigations have shown that popular open-source DNN systems could only achieve 2.5 speedup ratio on 64 GPUs connected by 56 Gbps network. To address this problem, we propose a communication backend named GradientFlow for distributed DNN training, and employ a set of network optimization techniques. First, we integrate ring-based allreduce, mixed-precision training, and computation/communication overlap into GradientFlow. Second, we propose lazy allreduce to improve network throughput by fusing multiple communication operations into a single one, and design coarse-grained sparse communication to reduce network traffic by only transmitting important gradient chunks. When training ImageNet/AlexNet on 512 GPUs, our approach achieves 410.2 speedup ratio and completes 95-epoch training in 1.5 minutes, which outperforms existing approaches.

研究动机与目标

  • 通过在分布式训练中缓解通信瓶颈来减少大规模 DNN 的训练时间。
  • 评估现有开源 DNN 系统在 56 Gbps 网络规模化到数百 GPU 的局限性。
  • 开发一个通信后端,进行改进以提升吞吐量并降低网络流量。
  • 在 ImageNet 上使用 AlexNet 和 ResNet-50 证明有效性以量化加速。
  • 提供与现有方法的比较基线并突出利用方面的仍存差距。

提出的方法

  • 将 GradientFlow 实现为 System-I 分布式 DNN 系统的通信后端。
  • 整合基于环的 allreduce、混合精度训练,以及计算/通信重叠。
  • 引入惰性 allreduce,将多次梯度传输融合为更少但更大的操作。
  • 设计粗粒度稀疏通信,仅传输重要的梯度块,同时保持模型质量。

实验结果

研究问题

  • RQ1带混合精度和重叠的基于环的 allreduce 能否在大型 GPU 集群上实现近线性扩展?
  • RQ2惰性 allreduce 和粗粒度稀疏通信在 ImageNet 的 AlexNet 和 ResNet-50 上在多大程度上降低网络流量并提高吞吐量?
  • RQ3与现有后端(如 Gloo、NCCL、MPI)在 56 Gbps 网络上的吞吐量和利用率相比,这些技术有何差异?
  • RQ4这些优化对大规模 ImageNet 实验的训练时间和加速有何影响?

主要发现

  • 在 512 GPU 上,使用所提出的方法,AlexNet 实现 410.2x,ResNet-50 实现 434.1x 的加速。
  • 训练 ImageNet/AlexNet 在 512 GPU 上 95 次训练仅需 1.5 分钟。
  • 培训 ImageNet/ResNet-50 在 512 GPU 上 90 次训练仅需 7.3 分钟。
  • 与 Jia 等人(1024 GPU 下 4 分钟)相比,该方法快 2.6 倍。
  • 与 Akiba 等人(1024 GPU 下 15 分钟)相比,该方法快 2.1 倍。
  • 即使有优化,GPU 资源利用率仍远低于线性,例如 Cluster-V 上的 AlexNet 和 ResNet-50 分别为 18.5% 和 26.2%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。