QUICK REVIEW

[論文レビュー] Poseidon: A System Architecture for Efficient GPU-based Deep Learning on Multiple Machines

Hao Zhang, Zhiting Hu|arXiv (Cornell University)|Dec 19, 2015

Advanced Neural Network Applications参考文献 23被引用数 43

ひとこと要約

Poseidon は、コンmodity Ethernet のみを用いて、複数の GPU 搭載マシンにまたがる効率的でスケーラブルなディープラーニング学習を可能にするシステムアーキテクチャである。3段階ハイブリッドアーキテクチャ、待ちなしバックプロパゲーションアルゴリズム（DWBP）、構造に配慮した通信プロトコル（SACP）を統合することで、8ノードで AlexNet で最大 6×、GoogLeNet で 4× の高速化を達成し、線形に近いスケーリングを実現しながらも収束性と正確性を維持している。

ABSTRACT

Deep learning (DL) has achieved notable successes in many machine learning tasks. A number of frameworks have been developed to expedite the process of designing and training deep neural networks (DNNs), such as Caffe, Torch and Theano. Currently they can harness multiple GPUs on a single machine, but are unable to use GPUs that are distributed across multiple machines; as even average-sized DNNs can take days to train on a single GPU with 100s of GBs to TBs of data, distributed GPUs present a prime opportunity for scaling up DL. However, the limited bandwidth available on commodity Ethernet networks presents a bottleneck to distributed GPU training, and prevents its trivial realization. To investigate how to adapt existing frameworks to efficiently support distributed GPUs, we propose Poseidon, a scalable system architecture for distributed inter-machine communication in existing DL frameworks. We integrate Poseidon with Caffe and evaluate its performance at training DNNs for object recognition. Poseidon features three key contributions that accelerate DNN training on clusters: (1) a three-level hybrid architecture that allows Poseidon to support both CPU-only and GPU-equipped clusters, (2) a distributed wait-free backpropagation (DWBP) algorithm to improve GPU utilization and to balance communication, and (3) a structure-aware communication protocol (SACP) to minimize communication overheads. We empirically show that Poseidon converges to same objectives as a single machine, and achieves state-of-art training speedup across multiple models and well-established datasets using a commodity GPU cluster of 8 nodes (e.g. 4.5x speedup on AlexNet, 4x on GoogLeNet, 4x on CIFAR-10). On the much larger ImageNet22K dataset, Poseidon with 8 nodes achieves better speedup and competitive accuracy to recent CPU-based distributed systems such as Adam and Le et al., which use 10s to 1000s of nodes.

研究の動機と目的

コンmodity Ethernet ネットワークのみを用いて、複数の GPU 搭載マシンにまたがるディープニューラルネットワークの効率的分散学習を可能にすること。
コンmodityクラスタにおけるマシン間帯域幅の制限によって引き起こされる通信ボトルネックを克服すること。
Caffe などの既存の単一マシンディープラーニングフレームワークに、分散GPU機能を追加することで、完全な再実装を必要とせずに拡張すること。
マルチノードGPUクラスタにおける高いGPU利用効率と通信オーバーヘッドの最小化を実現すること。
データ並列を用いて複数マシンに学習を拡張する際、収束性と正確性を維持すること。

提案手法

CPUオンリーとGPU搭載クラスタの両方をサポートする3段階ハイブリッドアーキテクチャを導入し、コンmodityハードウェア上での柔軟な展開を可能にしている。
通信と計算を重ねる待ちなしバックプロパゲーション（DWBP）アルゴリズムを採用することで、アイドル時間を削減し、GPU利用効率を向上させている。
ネットワークトポロジーとレイヤー構造に基づいてパラメータ同期を知的に整理することで、通信オーバーヘッドを最小限に抑える構造に配慮した通信プロトコル（SACP）を設計している。
制御された遅延を許容するステールシンクロナスパラレル（SSP）一貫性モデルを採用し、帯域幅利用効率を向上させるとともに同期遅延を低減している。
Caffe などの既存のディープラーニングフレームワークに、分散通信および同期プリミティブを拡張することで、シームレスに統合されている。
バッチ同期並列（BSP）と SSP モードを併用することで、収束安定性と学習速度のバランスを図っており、SSP では部分的な非同期を許容することでスループットを向上させている。

実験結果

リサーチクエスチョン

RQ1既存のディープラーニングフレームワークは、コンmodity Ethernet のみを用いて、複数マシンにまたがる分散GPUを効率的に活用できるように拡張できるか？
RQ2マルチGPU、マルチノードディープラーニングクラスタにおける通信ボトルネックを克服するために、どのようなシステムレベル最適化が必要か？
RQ3ハイブリッドアーキテクチャは、CPUオンリーとGPU搭載クラスタの両方をサポートしつつ、高いパフォーマンスとスケーラビリティを維持できるか？
RQ4待ちなしバックプロパゲーションと構造に配慮した通信は、学習遅延の短縮とGPU利用効率の向上にどの程度寄与できるか？
RQ5SSP 一貫性モデルは、コンmodityハードウェア上で分散ディープラーニングの収束性、正確性、およびスルーブプットにどのように影響を与えるか？

主な発見

Poseidon は、8ノードのGPUマシンを用いて、AlexNet で 4.5×、GoogLeNet で 4× の高速化を達成しており、SACP を有効にすることで AlexNet で最大 6× の高速化が実現された。
DWBP と SACP を有効化した Poseidon は、8ノードにスケーリングする際、最適化なしの状態（80%のスルーブプット損失）から、25%未満のスルーブプット損失にまで低下させ、ニアーライニアスケーリングに近づいた。
大規模な ImageNet 22K データセットにおいて、Poseidon は 8ノードで、最近の CPU ベースのシステム（Adam や Le et al.）と比較して、はるかに少ないノード数で競争力のある正確性とより高いスルーブプットを達成した。
SSP 一貫性モデルにより、AlexNet で 4ノードでスルーブプットが最大 27%（3.0 から 3.8）向上し、遅延の大きいノードへの感受性が低減された。
Poseidon は、単一マシン学習と同一の目的関数値に収束することを確認しており、分散学習がモデルの正確性と安定性を維持していることを裏付けている。
SACP はパラメータ行列再構築にわずかな計算オーバーヘッドをもたらすが、特に AlexNet のような深層モデルでは顕著なネットパフォーマンス向上をもたらしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。