[论文解读] Parallax: Automatic Data-Parallel Training of Deep Neural Networks.
Parallax 是一种数据并行训练框架,通过利用自然语言处理(NLP)模型中的参数稀疏性,提升了深度神经网络的可扩展性。它结合参数服务器(Parameter Server)与AllReduce架构,以最小化通信开销,在48块GPU上对NLP任务的训练速度相比Horovod最高提升6.02倍,相比TensorFlow提升2.8倍,且在图像分类模型上接近最优性能。
The employment of high-performance servers and GPU accelerators for training deep neural network models have greatly accelerated recent advances in deep learning (DL). DL frameworks, such as TensorFlow, MXNet, and Caffe2, have emerged to assist DL researchers to train their models in a distributed manner. Although current DL frameworks scale well for image classification models, there remain opportunities for scalable distributed training on natural language processing (NLP) models. We found that current frameworks show relatively low scalability on training NLP models due to the lack of consideration to the difference in sparsity of model parameters. In this paper, we propose Parallax, a framework that optimizes data parallel training by utilizing the sparsity of model parameters. Parallax introduces a hybrid approach that combines Parameter Server and AllReduce architectures to optimize the amount of data transfer according to the sparsity. Experiments show that Parallax built atop TensorFlow achieves scalable training throughput on both dense and sparse models while requiring little effort from its users. Parallax achieves up to 2.8x, 6.02x speedup for NLP models than TensorFlow and Horovod with 48 GPUs, respectively. The training speed for the image classification models is equal to Horovod and 1.53x faster than TensorFlow.
研究动机与目标
- 解决现有深度学习框架在训练自然语言处理(NLP)模型时因对参数稀疏性处理低效而导致的可扩展性受限问题。
- 在无需用户进行大量操作的前提下,提升稀疏(NLP)与密集(图像分类)模型的数据并行训练吞吐量。
- 通过根据模型稀疏性动态切换参数服务器与AllReduce通信模式,优化通信效率。
- 在保持与TensorFlow等主流框架兼容性的同时,实现对多种模型类型的高性能表现。
提出的方法
- 提出一种混合通信架构,根据模型参数的稀疏程度在参数服务器与AllReduce之间动态选择通信方式。
- 动态将模型参数划分为稀疏与密集两部分,以选择最高效的通信协议进行传输。
- 采用稀疏感知调度策略,最小化参数同步过程中跨工作节点的数据传输量。
- 通过在现有TensorFlow数据并行训练管道中进行轻量级扩展,实现与TensorFlow的无缝集成。
- 利用模型结构分析估算每层的稀疏度,指导通信策略的选择。
- 通过优先处理带宽需求较低的稀疏参数更新,实现通信负载均衡并减少空闲时间。
实验结果
研究问题
- RQ1如何针对NLP模型参数中固有的稀疏性,优化数据并行训练框架以提升可扩展性?
- RQ2在不同稀疏程度下,参数服务器与AllReduce通信策略中哪一种能带来更好的性能表现?
- RQ3混合通信方法在多GPU分布式DNN训练中,能在多大程度上减少通信开销?
- RQ4在多种模型类型下,Parallax与Horovod、TensorFlow等先进框架相比,在训练吞吐量方面表现如何?
主要发现
- 在48块GPU上,Parallax对NLP模型的训练速度相比Horovod最高提升6.02倍,相比TensorFlow提升2.8倍,显著提升了可扩展性。
- 在图像分类模型上,Parallax的性能与Horovod相当,且比TensorFlow快1.53倍,表明其在多种模型类型中具有出色的泛化能力。
- 混合通信策略通过自适应参数稀疏性,有效降低了通信开销,从而提升了训练吞吐量。
- Parallax部署所需用户干预极少,因其通过透明的稀疏感知通信路由机制扩展了TensorFlow。
- 该框架在稀疏与密集模型中均保持了高可扩展性,在混合架构训练场景中优于现有框架。
- 稀疏感知通信路由带来了可测量的性能提升,尤其在参数稀疏性差异较大的模型中表现显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。