[论文解读] Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters
该论文提出了一种通信高效的 top-k 稀疏化库,配备 GPU 优化算子和多级 I/O 缓存,可在公共云集群上实现可扩展的分布式训练。在配备 128 张 V100 GPU 的 16 节点腾讯云集群上,其训练速度比现有最先进系统快 25%–40%,并使用 25GbE 互连在 28 个周期内将 ResNet-50 训练至 93% 的 top-5 准确率,打破了 DAWNBench 记录。
Distributed training techniques have been widely deployed in large-scale deep neural networks (DNNs) training on dense-GPU clusters. However, on public cloud clusters, due to the moderate inter-connection bandwidth between instances, traditional state-of-the-art distributed training systems cannot scale well in training large-scale models. In this paper, we propose a new computing and communication efficient top-k sparsification communication library for distributed training. To further improve the system scalability, we optimize I/O by proposing a simple yet efficient multi-level data caching mechanism and optimize the update operation by introducing a novel parallel tensor operator. Experimental results on a 16-node Tencent Cloud cluster (each node with 8 Nvidia Tesla V100 GPUs) show that our system achieves 25%-40% faster than existing state-of-the-art systems on CNNs and Transformer. We finally break the record on DAWNBench on training ResNet-50 to 93% top-5 accuracy on ImageNet.
研究动机与目标
- 解决现有分布式训练系统在中等节点间带宽的公共云集群上扩展效率低下的问题。
- 在不牺牲收敛性或准确率的前提下,减少大规模 DNN 训练中的通信开销。
- 缓解公共云环境中网络文件系统导致的 I/O 瓶颈。
- 通过高效实现 top-k 稀疏化和并行张量操作,提升 GPU 利用率。
- 在商品化公共云基础设施上实现最先进水平的训练吞吐量和可扩展性。
提出的方法
- 设计一种新型并行算法,实现 GPU 友好的 top-k 稀疏化算子,降低梯度选择的计算成本。
- 提出一种分层 top-k 通信策略(HiTopKComm),最小化冗余数据传输,并改善节点间的负载均衡。
- 提出一种多级数据缓存机制,通过在 GPU 内存、本地 SSD 和远程 NFS 多层缓存数据,显著降低 I/O 延迟。
- 开发一种并行张量算子,高效处理稀疏梯度更新,提升参数聚合期间的 GPU 利用率。
- 采用混合训练策略:前几个周期使用 MSTopK-SGD(高通信效率),后期切换至 2DTAR-SGD 以保持准确率。
- 通过一种新型通信模式优化稀疏化梯度的 All-Gather 阶段,降低慢速互连上的延迟。
实验结果
研究问题
- RQ1top-k 稀疏化能否在 GPU 上高效实现,以减少分布式 DNN 训练中的通信开销?
- RQ2在低带宽 NFS 的公共云集群上,如何缓解大规模训练期间的 I/O 瓶颈?
- RQ3在大批次分布式训练中,通信效率与模型收敛性之间的最优权衡是什么?
- RQ4结合稀疏化与密集通信的混合训练策略能否同时提升速度与准确率?
- RQ5所提出的系统在具有中等互连带宽的真实公共云环境下表现如何?
主要发现
- 在配备 128 张 V100 GPU 和 25GbE 互连的 16 节点腾讯云集群上,该系统在 CNN 和 Transformer 上的训练速度比现有最先进系统快 25%–40%。
- 该系统通过在 28 个周期内将 ResNet-50 训练至 ImageNet 上 93% 的 top-5 准确率,打破了 DAWNBench 记录,128 张 V100 GPU 仅用 151 秒完成训练。
- 混合训练策略(MSTopK-SGD 后接 2DTAR-SGD)在保持高准确率的同时实现了卓越的扩展效率。
- 多级数据缓存机制显著降低了 I/O 延迟,提升了网络文件系统上的整体系统吞吐量。
- GPU 优化的 top-k 算子降低了梯度稀疏化的计算成本,使公共云集群上实现高性能通信成为可能。
- 分层 top-k 通信(HiTopKComm)减少了通信开销并改善了负载均衡,尤其在慢速互连上表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。