[論文レビュー] Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters
本論文は、GPU最適化演算子と多層I/Oキャッシュを備えた通信効率の高いトップ-kスパース化ライブラリを提案し、パブリッククラウドクラスタにおけるスケーラブルな分散学習を可能にしている。16ノードの騰訊クラウドクラスタ(128 V100 GPU)において、最先端のシステムと比較して25%〜40%高速な学習を達成し、25GbEインターコネクトを用いてResNet-50を28エポックでImageNetのトップ-5正解率93%まで訓練することでDAWNBench記録を更新した。
Distributed training techniques have been widely deployed in large-scale deep neural networks (DNNs) training on dense-GPU clusters. However, on public cloud clusters, due to the moderate inter-connection bandwidth between instances, traditional state-of-the-art distributed training systems cannot scale well in training large-scale models. In this paper, we propose a new computing and communication efficient top-k sparsification communication library for distributed training. To further improve the system scalability, we optimize I/O by proposing a simple yet efficient multi-level data caching mechanism and optimize the update operation by introducing a novel parallel tensor operator. Experimental results on a 16-node Tencent Cloud cluster (each node with 8 Nvidia Tesla V100 GPUs) show that our system achieves 25%-40% faster than existing state-of-the-art systems on CNNs and Transformer. We finally break the record on DAWNBench on training ResNet-50 to 93% top-5 accuracy on ImageNet.
研究の動機と目的
- 中程度のノード間帯域幅を有するパブリッククラウドクラスタにおいて、既存の分散学習システムのスケーリング効率の悪さに対処すること。
- 収束性や精度を損なわずに大規模DNN学習における通信オーバーヘッドを低減すること。
- パブリッククラウド環境におけるネットワークファイルシステムに起因するI/Oボトルネックを緩和すること。
- トップ-kスパース化と並列テンソル演算の効率的実装によりGPUの利用効率を向上させること。
- コモディティなパブリッククラウドインfraストラクチャ上でも最先端の学習スループットとスケーラビリティを達成すること。
提案手法
- 勾配選択の計算コストを低減するため、新しい並列アルゴリズムを用いたGPUフレンドリーなトップ-kスパース化演算子を設計する。
- 不要なデータ転送を最小限に抑え、ノード間の負荷分散を向上させるため、階層的トップ-k通信戦略(HiTopKComm)を導入する。
- GPUメモリ、ローカルSSD、リモートNFSの複数レイヤーにデータをキャッシュすることで、I/O遅延を低減する多層データキャッシュメカニズムを提案する。
- スパース勾配更新を効率的に処理し、パラメータ集約時のGPU利用効率を向上させるための並列テンソル演算子を開発する。
- 初期エポックには通信効率の高いMSTopK-SGD、後期エポックには精度を維持する2DTAR-SGDに切り替えるハイブリッドトレーニング戦略を採用する。
- スローなインターコネクトでも遅延を低減する新しい通信パターンを用いて、スパarsified勾配のAll-Gatherフェーズを最適化する。
実験結果
リサーチクエスチョン
- RQ1GPU上でトップ-kスパース化を効率的に実装することで、分散DNN学習における通信オーバーヘッドを低減できるか?
- RQ2低帯域幅のNFSを備えたパブリッククラウドクラスタにおいて、大規模学習時に生じるI/Oボトルネックをどのように緩和できるか?
- RQ3大バッチ分散学習において、通信効率とモデル収束性の最適なトレードオフは何か?
- RQ4スパース通信と密通信を組み合わせたハイブリッドトレーニング戦略は、速度と精度の両方を向上させられるか?
- RQ5中程度のインターコネクト帯域幅を有する実際のパブリッククラウド環境下で、本システムはどのように性能を発揮するか?
主な発見
- 16ノードの騰訊クラウドクラスタ(128 V100 GPU、25GbEインターコネクト)において、既存の最先端システムと比較して、CNNおよびTransformerの学習が25%〜40%高速化された。
- ResNet-50をImageNetでトップ-5正解率93%まで28エポックで訓練し、128 V100 GPUで151秒で完了することで、DAWNBench記録を更新した。
- ハイブリッドトレーニング戦略(MSTopK-SGDに続く2DTAR-SGD)は、高い精度を維持しながら優れたスケーリング効率を達成した。
- 多層データキャッシュメカニズムはI/O遅延を顕著に低減し、ネットワークファイルシステム上での全体的なシステムスループットを向上させた。
- GPU最適化トップ-k演算子は勾配スパース化の計算コストを低減し、パブリッククラウドクラスタ上でも高性能通信を実現した。
- 階層的トップ-k通信(HiTopKComm)は通信オーバーヘッドを低減し、特にスローなインターコネクト環境下で負荷分散を改善した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。