[論文レビュー] Scaling Distributed Machine Learning with In-Network Aggregation
SwitchMLは、プログラム可能なスイッチを使用したネットワーク内集約を導入し、ワーカ更新を合算することでデータトラフィックを削減し、分散トレーニングのエンドツーエンドのスピードアップを最大で5.5x達成します。
Training machine learning models in parallel is an increasingly important workload. We accelerate distributed parallel training by designing a communication primitive that uses a programmable switch dataplane to execute a key step of the training process. Our approach, SwitchML, reduces the volume of exchanged data by aggregating the model updates from multiple workers in the network. We co-design the switch processing with the end-host protocols and ML frameworks to provide an efficient solution that speeds up training by up to 5.5$\times$ for a number of real-world benchmark models.
研究の動機と目的
- 大規模分散MLにおけるトレーニングのボトルネックを計算から通信へ移す動機付け。
- プログラム可能なスイッチに実装された実用的なネットワーク内集約プリミティブを提案。
- SGDベースのトレーニングを加速するために、エンドホストのプロトコルとMLフレームワークとスイッチ処理を共設計。
- エンドツーエンドのトレーニングスピードアップを実証し、従来のall-reduceおよびパラメータサーバーアプローチと比較。
提案手法
- モデル更新をスイッチのパイプライン制限に適合するチャンクに分解し、ストリーミング集計を可能にする。
- 更新を合計するためのプールベースの、スイッチ内の整数集計を実装し、浮動小数点値は適応スケーリングによって固定小数点へマッピング。
- エンドホストの集約プロトコルを調整し、スイッチ集計機の同期されたスロットベース利用を推進。
- 軽量なホスト駆動再送とスイッチ側のシャドーコピーを用いたパケット損失に対する耐障害機構を提供。
- 実用的なデプロイのために、既存のMLフレームワーク(例:PyTorch、TensorFlow)およびHorovodとSwitchMLを統合。
実験結果
リサーチクエスチョン
- RQ1プログラム可能なスイッチ内のネットワーク内集約は、同期的な分散SGDの通信オーバーヘッドを削減できるか?
- RQ2グラデーション集約をスイッチデータプレーンに実装する際の設計上の妥協点(精度、メモリ、信頼性)は何か?
- RQ3異なるネットワーク速度とモデルサイズの下で、SwitchMLは従来のall-reduceおよびパラメータサーバー手法とどう比較されるか?
- RQ4実際のMLパイプラインへSwitchMLを組み込んだ場合のエンドツーエンドのトレーニング性能影響は何か?
主な発見
- SwitchMLは実世界のDNNベンチマークで最大5.5xのエンドツーエンドのトレーニングスピードアップを達成。
- ネットワーク内集約は、テストされたワークロード全体でリング全減算を一貫して上回り、10 Gbpsで最大80%高速化、100 Gbpsで最大67%高速化(合成ベンチマークのネットワーク帯域モデル)。
- RDMAを用いたNCCLと比較して、SwitchMLベースの集計は最大2.9x速く、報告されたマイクロベンチマークではTCPを用いたNCCLより最大9.1x速い。
- 勾配圧縮(Top-k、QSGD)は普遍的に有益ではない;多くのケースで圧縮オーバーヘッドがデータ削減を相殺し、ハードウェアとワークロード条件が圧縮利得を制限する場合、SwitchMLが優位になることが多い。
- 設計は、プールベースのストリーミング集計と2つのプールシャドーコピー機構を利用して、スイッチの複雑さを最小限に抑えつつパケット損失に耐える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。