[論文レビュー] Integrated Model and Data Parallelism in Training Neural Networks.
本論文は、通信コストを最小限に抑えるために、$P_r \times P_c$ プロセスグリッドを用いた、深層ニューラルネットワークのトレーニングのための統合モデル並列化とデータ並列化フレームワークを提案する。ハイブリッド並列化が、より太った行列を用いた高いスループットの行列積を可能にすることで、純粋なモデル並列化やデータ並列化を上回ることを示している。
We propose a new integrated method of exploiting both model and data parallelism for the training of deep neural networks (DNNs) on large distributed-memory computers using mini-batch stochastic gradient descent (SGD). Our goal is to find an efficient parallelization strategy for a fixed batch size using $P$ processes. Our method is inspired by the communication-avoiding algorithms in numerical linear algebra. We see $P$ processes as logically divided into a $P_r imes P_c$ grid where the $P_r$ dimension is implicitly responsible for model parallelism and the $P_c$ dimension is implicitly responsible for data parallelism. In practice, the integrated matrix-based parallel algorithm encapsulates both types of parallelism automatically. We analyze the communication complexity and analytically demonstrate that the lowest communication costs are often achieved neither with pure model parallelism nor with pure data parallelism. We also show the positive effect of our approach in the computational performance of SGD based DNN training where the reduced number of processes responsible for data parallelism result in fatter matrices that enable higher-throughput matrix multiplication.
研究の動機と目的
- 固定されたミニバッチサイズを前提とした分散メモリシステムにおける大規模DNNトレーニングのための効率的な並列化戦略の開発。
- モデル並列化とデータ並列化を統合することで、SGDベースのトレーニングにおける通信オーバーヘッドを最小限に抑えること。
- 通信複雑度を分析し、最適なハイブリッド並列化構成を同定すること。
- データ並列化に使用するプロセス数を削減することで、より高いスループットの行列積を可能にすることで、計算性能を向上させること。
提案手法
- 本手法は $P$ 個のプロセスを論理的な $P_r \times P_c$ グリッドに配置し、$P_r$ がモデル並列化を、$P_c$ がデータ並列化を担当する。
- 計算内にモデル並列化とデータ並列化を自動的に統合する行列ベースの並列アルゴリズムを採用する。
- 通信を回避する数値線形代数のアルゴリズムにインspiredされ、プロセス間通信を低減する。
- 通信複雑度を解析的にモデル化し、最適なパフォーマンスを達成するための $P_r$ と $P_c$ の選定を支援する。
- データ並列化に使用するプロセス数を減らすことで、行列積においてより大きな、太った行列を活用する。
実験結果
リサーチクエスチョン
- RQ1DNNトレーニングにおける通信コストを最小限に抑えるために、モデル並列化とデータ並列化の最適なバランスは何か?
- RQ2モデル並列化とデータ並列化を統合することで、SGDベースのトレーニングにおける行列積のスループットにどのような影響を与えるか?
- RQ3通信効率の観点から、ハイブリッド並列化戦略は、純粋なモデル並列化や純粋なデータ並列化を上回ることができるか?
- RQ4プロセスグリッド構成($P_r \times P_c$)は、通信複雑度とトレーニングパフォーマンスにどのような影響を与えるか?
主な発見
- 通信コストが最小になるのは、純粋なモデル並列化や純粋なデータ並列化ではなく、ハイブリッド戦略のときである。
- データ並列化に使用するプロセス数を減らすことで、より太った行列が得られ、行列積演算におけるスループットが向上する。
- 統合手法は、純粋なモデル並列化や純粋なデータ並列化よりも低い通信複雑度を達成する。
- 冗長な通信を最小限に抑えつつスケーラビリティを維持できるため、より高い計算効率を実現できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。