Skip to main content
QUICK REVIEW

[論文レビュー] Poseidon: An Efficient Communication Architecture for Distributed Deep Learning on GPU Clusters

Hao Zhang, Zeyu Zheng|arXiv (Cornell University)|Jun 10, 2017
Advanced Neural Network Applications参考文献 29被引用数 197
ひとこと要約

PoseidonはGPU上のデータ並列分散ディープラーニングのための層状・待機なしのハイブリッド通信アーキテクチャを導入し、計算と通信を重ね合わせ、層ごとに最適な通信方法を選択することで、ほぼ線形スケーリングを実現します。

ABSTRACT

Deep learning models can take weeks to train on a single GPU-equipped machine, necessitating scaling out DL training to a GPU-cluster. However, current distributed DL implementations can scale poorly due to substantial parameter synchronization over the network, because the high throughput of GPUs allows more data batches to be processed per unit time than CPUs, leading to more frequent network synchronization. We present Poseidon, an efficient communication architecture for distributed DL on GPUs. Poseidon exploits the layered model structures in DL programs to overlap communication and computation, reducing bursty network communication. Moreover, Poseidon uses a hybrid communication scheme that optimizes the number of bytes required to synchronize each layer, according to layer properties and the number of machines. We show that Poseidon is applicable to different DL frameworks by plugging Poseidon into Caffe and TensorFlow. We show that Poseidon enables Caffe and TensorFlow to achieve 15.5x speed-up on 16 single-GPU machines, even with limited bandwidth (10GbE) and the challenging VGG19-22K network for image classification. Moreover, Poseidon-enabled TensorFlow achieves 31.5x speed-up with 32 single-GPU machines on Inception-V3, a 50% improvement over the open-source TensorFlow (20x speed-up).

研究の動機と目的

  • バースト的で大容量のパラメータ同期のため、GPUクラスター上でスケーラブルな分散DLが必要であることを動機づける。
  • DLモデルの層ごとの構造を利用して、計算と通信を重ね合わせるPoseidonを提案する。
  • 層ごとに最も安価な同期方法を選択するハイブリッド通信方式を導入する。
  • PoseidonをCaffeとTensorFlowに統合して、フレームワーク横断の適用性を示す。

提案手法

  • DLトレーニングを層ごとの計算と同期ステップに分解し、前方伝播/後方伝播と通信の重ね合わせを可能にする。
  • Wait-free Backpropagation (WFBP)を導入し、独立操作を同時にスケジュールすることで、勾配の同期と下位層の計算を重ね合わせる。
  • 層の特性とクラスター構成に基づき、層ごとに最適な同期方法(PS、SFB、Adam様の戦略など)を選択するHybrid Communication (HybComm)を提案する。
  • Poseidonを3部構成のシステム(コーディネータ、KVストア、クライアントライブラリ)として実装し、通信スケジュールと転送を管理するAPIを公開する。
  • 最小限のコード変更で既存フレームワーク(CaffeとTensorFlow)への統合を実証し、32 GPUsまでほぼ線形スケーラビリティを達成する。

実験結果

リサーチクエスチョン

  • RQ1GPUクラスター上で通信コストを隠し、ネットワークのバースト性を低減するようにDLトレーニングを再構成できるか?
  • RQ2帯域幅やモデルサイズが異なる場合に、層ごとのハイブリッド通信戦略は標準のPSやSFBスキームと比較してスループットを改善できるか?
  • RQ3Poseidonは複数のDLフレームワークと大規模モデルにまたがって、どの程度までほぼ線形のスループットスケーリングを達成できるか?
  • RQ4代表的なCNNとデータセットにおける収束速度と全体的な訓練効率に対するPoseidonの影響はどの程度か?

主な発見

  • Poseidonは複数のモデルとフレームワークにわたり、最大32 Titan X GPUでほぼ線形のスループットスケーリングを達成する。
  • 32ノードで、TensorFlowを搭載したPoseidonはInception-V3で31.5xの高速化を達成し、元のTensorFlowより速度向上が50%上回る。
  • 10GbE帯域が限られた16台のマシンでは、Poseidonは大規模モデル(例:VGG19-22K)に対してPSベースの並列化よりも良いスケーリングを維持する。
  • Poseidonは最適な層ごとの通信方法を自動的に特化させることで、ネットワーク通信のボトルネックを低減し、帯域利用を改善する。
  • AdamやCNTKの1-bit量子化などのSF戦略と比較して、Poseidonはアルゴリズムスルーチホットの向上、または統計的性能の安定性の強化を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。