Skip to main content
QUICK REVIEW

[論文レビュー] Modeling and Evaluation of Synchronous Stochastic Gradient Descent in Distributed Deep Learning on Multiple GPUs.

Shaohuai Shi, Qiang Wang|arXiv (Cornell University)|May 10, 2018
Stochastic Gradient Optimization Techniques被引用数 3
ひとこと要約

本稿では、複数のGPUを用いた分散ディープラーニングにおける同期的確率的勾配降下法(S-SGD)を分析するための一般化された有向無閉路グラフ(DAG)モデルを提案する。PCIe、NVLink、10GbE、InfiniBandを用いた4つのフレームワーク(Caffe-MPI、CNTK、MXNet、TensorFlow)における実験的評価を通じて、通信のボトル neck を同定し、シミュレーションベースの研究を支援するための公開可能な実験トレースを提供する。

ABSTRACT

With huge amounts of training data, deep learning has made great breakthroughs in many artificial intelligence (AI) applications. However, such large-scale data sets present computational challenges, requiring training to be distributed on a cluster equipped with accelerators like GPUs. With the fast increase of GPU computing power, the data communications among GPUs have become a potential bottleneck on the overall training performance. In this paper, we first propose a general directed acyclic graph (DAG) model to describe the distributed synchronous stochastic gradient descent (S-SGD) algorithm, which has been widely used in distributed deep learning frameworks. To understand the practical impact of data communications on training performance, we conduct extensive empirical studies on four state-of-the-art distributed deep learning frameworks (i.e., Caffe-MPI, CNTK, MXNet and TensorFlow) over multi-GPU and multi-node environments with different data communication techniques, including PCIe, NVLink, 10GbE, and InfiniBand. Through both analytical and experimental studies, we identify the potential bottlenecks and overheads that could be further optimized. At last, we make the data set of our experimental traces publicly available, which could be used to support simulation-based studies.

研究の動機と目的

  • 一般化された有向無閉路グラフ(DAG)抽象化を用いて、分散ディープラーニングにおける同期的確率的勾配降下法(S-SGD)の挙動をモデル化すること。
  • 異なるデータ通信技術を用いたマルチGPUおよびマルチノード環境における通信ボトル neck を同定し、分析すること。
  • 最新のディープラーニングフレームワークにおけるさまざまな通信技術—PCIe、NVLink、10GbE、InfiniBand—のパフォーマンスへの影響を評価すること。
  • 将来のシミュレーションベースの研究を支援するため、公開可能な実験トレースデータセットを提供すること。

提案手法

  • 分散S-SGD学習における計算および通信フローを表現するための一般化された有向無閉路グラフ(DAG)モデルを開発する。
  • Caffe-MPI、CNTK、MXNet、TensorFlowの4つのディープラーニングフレームワークを対象に、広範な実験的調査を実施する。
  • PCIe、NVLink、10GbE、InfiniBandの多様な通信バックボーンを用いて、学習パフォーマンスを評価する。
  • 解析的および実験的分析を組み合わせ、データ通信関連のパフォーマンスボトル neck を同定する。
  • 再現性およびシミュレーション用途を目的に、マルチGPUおよびマルチノード環境からの詳細な実験トレースを収集・公開する。
  • DAGモデルを用いて、S-SGDにおける計算フェーズと通信フェーズの相互作用を体系的にマッピングおよび分析する。

実験結果

リサーチクエスチョン

  • RQ1マルチGPU環境における異なる相互接続技術(PCIe、NVLink、10GbE、InfiniBand)の下で、S-SGDにおける通信オーバーヘッドはどのように変化するか?
  • RQ2複数のGPUおよびノードにスケーリングする際、分散S-SGD学習における主なパフォーマンスボトル neck は何か?
  • RQ3Caffe-MPI、CNTK、MXNet、TensorFlowといった異なるディープラーニングフレームワークは、通信と計算のトレードオフにおいてどのように異なる挙動を示すか?
  • RQ4提案されたDAGモデルは、分散学習におけるS-SGDの挙動をどれほど正確に表現・予測できるか?
  • RQ5実験トレースから得られるインサイトは、将来の通信効率の良いディープラーニングフレームワークの最適化をどのように導くか?

主な発見

  • モデルおよびデータのスケールが増大するにつれ、GPU間のデータ通信が分散S-SGD学習における主要なボトル neck となる。
  • NVLinkはPCIeに比べて通信遅延を顕著に低減し、結果として学習スループットが向上する。
  • マルチノード環境では、InfiniBandが10GbEを上回る性能を示す。これは、低遅延および高帯域幅のおかげである。
  • 通信バックエンドの選択が全体の学習パフォーマンスに顕著な影響を及ぼし、スケーリングに伴い性能差が拡大する。
  • 提案されたDAGモデルは、S-SGDにおける通信と計算の相互作用パターンを効果的に捉えており、体系的なボトル neck 分析を可能にする。
  • 公開された実験トレースは、分散ディープラーニング研究におけるシミュレーションツールの検証およびキャリブレーションに貴重なリソースを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。