QUICK REVIEW

[論文レビュー] Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters

Shaohuai Shi, Xianhao Zhou|arXiv (Cornell University)|Oct 20, 2020

Privacy-Preserving Technologies in Data参考文献 33被引用数 25

ひとこと要約

本論文は、GPU最適化演算子と多層I/Oキャッシュを備えた通信効率の高いトップ-kスパース化ライブラリを提案し、パブリッククラウドクラスタにおけるスケーラブルな分散学習を可能にしている。16ノードの騰訊クラウドクラスタ（128 V100 GPU）において、最先端のシステムと比較して25%〜40%高速な学習を達成し、25GbEインターコネクトを用いてResNet-50を28エポックでImageNetのトップ-5正解率93%まで訓練することでDAWNBench記録を更新した。

ABSTRACT

Distributed training techniques have been widely deployed in large-scale deep neural networks (DNNs) training on dense-GPU clusters. However, on public cloud clusters, due to the moderate inter-connection bandwidth between instances, traditional state-of-the-art distributed training systems cannot scale well in training large-scale models. In this paper, we propose a new computing and communication efficient top-k sparsification communication library for distributed training. To further improve the system scalability, we optimize I/O by proposing a simple yet efficient multi-level data caching mechanism and optimize the update operation by introducing a novel parallel tensor operator. Experimental results on a 16-node Tencent Cloud cluster (each node with 8 Nvidia Tesla V100 GPUs) show that our system achieves 25%-40% faster than existing state-of-the-art systems on CNNs and Transformer. We finally break the record on DAWNBench on training ResNet-50 to 93% top-5 accuracy on ImageNet.

研究の動機と目的

中程度のノード間帯域幅を有するパブリッククラウドクラスタにおいて、既存の分散学習システムのスケーリング効率の悪さに対処すること。
収束性や精度を損なわずに大規模DNN学習における通信オーバーヘッドを低減すること。
パブリッククラウド環境におけるネットワークファイルシステムに起因するI/Oボトルネックを緩和すること。
トップ-kスパース化と並列テンソル演算の効率的実装によりGPUの利用効率を向上させること。
コモディティなパブリッククラウドインfraストラクチャ上でも最先端の学習スループットとスケーラビリティを達成すること。

提案手法

勾配選択の計算コストを低減するため、新しい並列アルゴリズムを用いたGPUフレンドリーなトップ-kスパース化演算子を設計する。
不要なデータ転送を最小限に抑え、ノード間の負荷分散を向上させるため、階層的トップ-k通信戦略（HiTopKComm）を導入する。
GPUメモリ、ローカルSSD、リモートNFSの複数レイヤーにデータをキャッシュすることで、I/O遅延を低減する多層データキャッシュメカニズムを提案する。
スパース勾配更新を効率的に処理し、パラメータ集約時のGPU利用効率を向上させるための並列テンソル演算子を開発する。
初期エポックには通信効率の高いMSTopK-SGD、後期エポックには精度を維持する2DTAR-SGDに切り替えるハイブリッドトレーニング戦略を採用する。
スローなインターコネクトでも遅延を低減する新しい通信パターンを用いて、スパarsified勾配のAll-Gatherフェーズを最適化する。

実験結果

リサーチクエスチョン

RQ1GPU上でトップ-kスパース化を効率的に実装することで、分散DNN学習における通信オーバーヘッドを低減できるか？
RQ2低帯域幅のNFSを備えたパブリッククラウドクラスタにおいて、大規模学習時に生じるI/Oボトルネックをどのように緩和できるか？
RQ3大バッチ分散学習において、通信効率とモデル収束性の最適なトレードオフは何か？
RQ4スパース通信と密通信を組み合わせたハイブリッドトレーニング戦略は、速度と精度の両方を向上させられるか？
RQ5中程度のインターコネクト帯域幅を有する実際のパブリッククラウド環境下で、本システムはどのように性能を発揮するか？

主な発見

16ノードの騰訊クラウドクラスタ（128 V100 GPU、25GbEインターコネクト）において、既存の最先端システムと比較して、CNNおよびTransformerの学習が25%〜40%高速化された。
ResNet-50をImageNetでトップ-5正解率93%まで28エポックで訓練し、128 V100 GPUで151秒で完了することで、DAWNBench記録を更新した。
ハイブリッドトレーニング戦略（MSTopK-SGDに続く2DTAR-SGD）は、高い精度を維持しながら優れたスケーリング効率を達成した。
多層データキャッシュメカニズムはI/O遅延を顕著に低減し、ネットワークファイルシステム上での全体的なシステムスループットを向上させた。
GPU最適化トップ-k演算子は勾配スパース化の計算コストを低減し、パブリッククラウドクラスタ上でも高性能通信を実現した。
階層的トップ-k通信（HiTopKComm）は通信オーバーヘッドを低減し、特にスローなインターコネクト環境下で負荷分散を改善した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。