[論文レビュー] Beyond Data and Model Parallelism for Deep Neural Networks
FlexFlowは、DNNの並列性のためのより広いSOAP空間(サンプル-操作-属性-パラメータ)を定義し、効率的な戦略を見つけるためのMCMC探索を用いた高速実行シミュレーターを利用し、先行手法に対して実質的なスループット向上を達成します。
The computational requirements for training deep neural networks (DNNs) have grown to the point that it is now standard practice to parallelize training. Existing deep learning systems commonly use data or model parallelism, but unfortunately, these strategies often result in suboptimal parallelization performance. In this paper, we define a more comprehensive search space of parallelization strategies for DNNs called SOAP, which includes strategies to parallelize a DNN in the Sample, Operation, Attribute, and Parameter dimensions. We also propose FlexFlow, a deep learning framework that uses guided randomized search of the SOAP space to find a fast parallelization strategy for a specific parallel machine. To accelerate this search, FlexFlow introduces a novel execution simulator that can accurately predict a parallelization strategy's performance and is three orders of magnitude faster than prior approaches that have to execute each strategy. We evaluate FlexFlow with six real-world DNN benchmarks on two GPU clusters and show that FlexFlow can increase training throughput by up to 3.8x over state-of-the-art approaches, even when including its search time, and also improves scalability.
研究の動機と目的
- データ並列性とモデル並列性を超えた、より包括的な並列化の必要性を動機づける。
- サンプル、操作、属性、パラメータの次元を含む、より広いSOAP探索空間を形式化する。
- 性能を予測し最適化を指針づける高速実行シミュレーターを開発する。
- 自動的に高速な並列化戦略を発見・実行するフレームワークとしてFlexFlowを提案する。
- 実世界のDNNベンチマークでスループットとスケーラビリティの改善を実証する。
提案手法
- デバイス間でDNNを並列化するためのSOAP探索空間(サンプル、操作、属性、パラメータ)を定義する。
- 低分散かつ高速で性能を予測する高速実行シミュレーターを開発し、広範な探索を可能にする。
- シミュレーション結果に基づくSOAP戦略を探索するために、Markov Chain Monte Carlo (MCMC) 最適化手法を用いる。
- 戦略変更を効率的に評価するための完全シミュレーションとΔシミュレーションアルゴリズムを実装する。
- 発見された並列化戦略を実行する分散ランタイム(Legion)を構築する。
実験結果
リサーチクエスチョン
- RQ1SOAP空間は従来のデータ/モデル並列性および専門家設計の戦略よりも速い並列化を生み出せるか?
- RQ2FlexFlowの実行シミュレーターは実機実行と比較してどれだけ正確で高速か?
- RQ3GPUクラスタ上で実世界のDNNベンチマークでどの程度のスループットとスケーラビリティの向上が得られるか?
- RQ4効率的な戦略の発見においてFlexFlowはREINFORCEおよびOptCNNとどう比較されるか?
- RQ5より広い並列化が通信コストとスケジューリングに与える影響は何か?
主な発見
- FlexFlowは最先端手法より最大で3.8倍のトレーニングスループットを向上させる。
- シミュレーター主導の探索は、4 GPUと合計160ノードでREINFORCEが12–27時間かかる戦略を14–40秒で見つける。
- 評価ではFlexFlowは最大で3.3xのスループット向上と通信コストを最大で5x削減を達成。
- 同じハードウェア構成でREINFORCEを3.4–3.8x上回り、より広いSOAP空間をサポートすることでOptCNNを1.2–1.6x上回る。
- シミュレーターの実測実行時間に対する相対誤差は、測定されたすべての実行で30%未満であり、戦略の時間順序を保持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。