[论文解读] Integrated Model and Data Parallelism in Training Neural Networks.
该论文提出了一种基于 $P_r \times P_c$ 进程网格的集成模型并行与数据并行框架,用于训练深度神经网络,通过结合两种并行类型以最小化通信开销。结果表明,混合并行优于纯模型并行或纯数据并行,通过使用更宽的矩阵实现更高吞吐量的矩阵乘法。
We propose a new integrated method of exploiting both model and data parallelism for the training of deep neural networks (DNNs) on large distributed-memory computers using mini-batch stochastic gradient descent (SGD). Our goal is to find an efficient parallelization strategy for a fixed batch size using $P$ processes. Our method is inspired by the communication-avoiding algorithms in numerical linear algebra. We see $P$ processes as logically divided into a $P_r imes P_c$ grid where the $P_r$ dimension is implicitly responsible for model parallelism and the $P_c$ dimension is implicitly responsible for data parallelism. In practice, the integrated matrix-based parallel algorithm encapsulates both types of parallelism automatically. We analyze the communication complexity and analytically demonstrate that the lowest communication costs are often achieved neither with pure model parallelism nor with pure data parallelism. We also show the positive effect of our approach in the computational performance of SGD based DNN training where the reduced number of processes responsible for data parallelism result in fatter matrices that enable higher-throughput matrix multiplication.
研究动机与目标
- 开发一种在固定小批量大小的分布式内存系统上进行大规模 DNN 训练的高效并行化策略。
- 通过结合模型并行与数据并行,最小化基于 SGD 训练的通信开销。
- 分析通信复杂度并识别最优的混合并行配置。
- 通过减少用于数据并行的进程数量,实现更高吞吐量的矩阵乘法,从而提升计算性能。
提出的方法
- 该方法将 $P$ 个进程组织为一个逻辑上的 $P_r \times P_c$ 网格,其中 $P_r$ 负责模型并行,$P_c$ 负责数据并行。
- 采用基于矩阵的并行算法,自动在计算中封装模型并行与数据并行。
- 该方法受到数值线性代数中通信避免算法的启发,以减少进程间的通信。
- 通过分析建模通信复杂度,指导 $P_r$ 和 $P_c$ 的选择以实现最优性能。
- 通过减少用于数据并行的进程数量,使矩阵乘法中使用更大、更宽的矩阵。
实验结果
研究问题
- RQ1在 DNN 训练中,使通信开销最小化的模型并行与数据并行之间的最优平衡是什么?
- RQ2模型并行与数据并行的集成如何影响基于 SGD 训练中矩阵乘法的吞吐量?
- RQ3混合并行策略是否在通信效率方面优于纯模型并行或纯数据并行?
- RQ4进程网格配置($P_r \times P_c$)对通信复杂度和训练性能有何影响?
主要发现
- 最低的通信开销并非出现在纯模型并行或纯数据并行的情况下,而是出现在混合策略中。
- 减少用于数据并行的进程数量可产生更宽的矩阵,从而提升矩阵乘法操作的吞吐量。
- 集成方法的通信复杂度低于纯模型并行或纯数据并行。
- 该方法通过最小化冗余通信,在保持可扩展性的同时实现了更高的计算效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。