[论文解读] Efficient and Robust Parallel DNN Training through Model Parallelism on Multi-GPU Platform
本文提出 SpecTrain,一种用于流水线模型并行的权重预测技术,以缓解多GPU DNN 训练中的 stale 问题,在保持与数据并行相当的精度的同时实现较高的 GPU 利用率,在4个 GPU 上实现最高 8.91x 的速度提升。
The training process of Deep Neural Network (DNN) is compute-intensive, often taking days to weeks to train a DNN model. Therefore, parallel execution of DNN training on GPUs is a widely adopted approach to speed up the process nowadays. Due to the implementation simplicity, data parallelism is currently the most commonly used parallelization method. Nonetheless, data parallelism suffers from excessive inter-GPU communication overhead due to frequent weight synchronization among GPUs. Another approach is pipelined model parallelism, which partitions a DNN model among GPUs, and processes multiple mini-batches concurrently. This approach can significantly reduce inter-GPU communication cost compared to data parallelism. However, pipelined model parallelism faces the weight staleness issue; that is, gradients are computed with stale weights, leading to training instability and accuracy loss. In this paper, we present a pipelined model parallel execution method that enables high GPU utilization while maintaining robust training accuracy via a novel weight prediction technique, SpecTrain. Experimental results show that our proposal achieves up to 8.91x speedup compared to data parallelism on a 4-GPU platform while maintaining comparable model accuracy.
研究动机与目标
- 动机并分析多-GPU 平台上由于跨-GPU 通信开销导致的数据并行的局限性。
- 探索流水线模型并行以提高 GPU 利用率并减少跨-GPU 数据传输。
- 识别并解决流水线模型并行固有的权重时效性问题。
- 引入 SpecTrain,一种基于平滑梯度的权重预测机制,以维持训练鲁棒性和准确性。
- 在4-GPU平台上对多种 CNN、FCN 和 RNN 模型评估吞吐量和准确性。
提出的方法
- 采用源自 PipeDream 的流水线模型并行训练框架,并引入 SpecTrain 进行权重预测。
- 使用来自动量 SGD 的平滑梯度来预测未来权重,以在流水线早期阶段估计权重更新。
- 使用方程 W_hat_{t+s} = W_t - s * eta * v_{t-1} 计算预测权重,其中 v_{t-1} 是平滑梯度。
- 根据 GPU 索引以及小批量是在前向还是反向传播来确定版本差分 s(论文中给出具体公式)。
- 在 CIFAR-10/IMDb 数据集上,对六种模型(CNN、FCN、RNN)比较数据并行、原始模型并行、PipeDream(权重缓存)和 SpecTrain 的性能。
- 提供吞吐量、收敛行为和准确性分析,以证明鲁棒性和性能提升。
实验结果
研究问题
- RQ1数据并行与模型并行在多-GPU 平台上的跨-GPU 通信和训练效率方面有何差异?
- RQ2流水线模型并行是否能在不影响精度的前提下实现较高的 GPU 利用率,哪些机制可以缓解权重时效性?
- RQ3SpecTrain 的权重预测在提供吞吐量提升的同时,是否能维持或提升模型准确性,相对于数据并行和现有流水线方法?
- RQ4在多-GPU 系统上,SpecTrain 在 CNN、FCN、RNN 模型上表现出的性能/准确性权衡如何?
主要发现
- 模型并行相较于数据并行在跨-GPU 通信方面可减少,平均减少 13.4x,最大可达 528x,适用于被测试的模型。
- 若不进行时效性缓解,流水线模型并行可能不稳定并降低准确性,尤其对于较大模型。
- SpecTrain 提供权重预测以缓解时效性,使学习曲线和最终准确性在大多数工作负载中接近数据并行。
- 在4-GPU系统上,SpecTrain 对 FCN/RNN 模型的吞吐量比数据并行提升最高可达 8.91x,并且在大多数情况下未降低准确性。
- 相比 PipeDream,SpecTrain 避免了来自权重缓存队列的额外内存开销,并保持稳定性和准确性。
- 对于 Transformer 及其他 CNN/RNN 模型,SpecTrain 在训练损失和验证准确性方面保持鲁棒性,接近或匹配数据并行,而 Vanilla Model P. 和 PipeDream 在若干模型上可能出现准确性下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。