QUICK REVIEW

[論文レビュー] Priority-based Parameter Propagation for Distributed DNN Training

Anand Jayarajan, Jinliang Wei|arXiv (Cornell University)|May 10, 2019

Advanced Neural Network Applications参考文献 22被引用数 42

ひとこと要約

P3はパラメータスライシングと優先度ベースの更新を導入し、通信と計算を重ね合わせることで、帯域幅が限られた状況下でデータ並列DNN学習の収束には影響を与えずに性能を向上させる。

ABSTRACT

Data parallel training is widely used for scaling distributed deep neural network (DNN) training. However, the performance benefits are often limited by the communication-heavy parameter synchronization step. In this paper, we take advantage of the domain specific knowledge of DNN training and overlap parameter synchronization with computation in order to improve the training performance. We make two key observations: (1) the optimal data representation granularity for the communication may differ from that used by the underlying DNN model implementation and (2) different parameters can afford different synchronization delays. Based on these observations, we propose a new synchronization mechanism called Priority-based Parameter Propagation (P3). P3 synchronizes parameters at a finer granularity and schedules data transmission in such a way that the training process incurs minimal communication delay. We show that P3 can improve the training throughput of ResNet-50, Sockeye and VGG-19 by as much as 25%, 38% and 66% respectively on clusters with realistic network bandwidth

研究の動機と目的

同期SGDを用いるデータ並列DNN学習における通信ボトルネックを克服する必要性を動機づける。
DNN学習のドメイン固有の知識を活用して、パラメータ同期と計算を重ね合わせる。
帯域幅の制約下で、より微細なパラメータ同期がレイヤーレベルの手法よりも性能を上回ることを示す。
通信オーバーヘッドを削減しつつ、手法が収束を維持することを保証する。

提案手法

パラメータスライシングを提案する: レイヤをより小さなパラメータスライスに分割し、それらを独立に同期する。
Priority-based Updateを適用する: 次の反復で必要になる時点に基づいてスライスに優先度を割り当て、優先度の高いスライスを先にスケジュールする。
MXNet KVStore内で、スライスのためのプロデューサ-コンシューマ優先度キューを備えたP3ワーカーとP3サーバを導入して実装する。
スライスをP3サーバへラウンドロビンで割り当て、スライスごとの更新通知を明示的に行わないことで双方向の帯域利用を可能にする。
モデルの収束を影響しないように、全勾配同期を維持する。

実験結果

リサーチクエスチョン

RQ1限られた帯域幅下で、レイヤーレベルの同期と比較して、より細かいパラメータ同期は通信遅延を削減できるか？
RQ2スケジューリングにレイヤーの消費タイミング（順伝播の要件）を組み込むと、通信と計算の重なりをさらに改善するか？
RQ3異なるレイヤ粒度を持つモデル間で、学習スループットを向上させつつP3がSGDの収束を維持するか？

主な発見

P3は現実的なネットワーク帯域下で、ResNet-50、Sockeye、VGG-19の学習スループットをそれぞれ最大25%、38%、66%向上させる。
P3は複数モデルでベースラインより低い帯域幅まで線形スループットを維持し、帯域制限に対する耐性が高いことを示す。
パラメータスライシングはピーク帯域使用量を削減し、双方向帯域利用をより効果的にできる。
DGCのような圧縮ベースの手法と比較して精度が向上し、SGDの収束挙動を変更しない。
非常に大きなレイヤを持つモデル（例: VGG-19）で大きなスループット向上をもたらし、いくつかのモデルで得られる利得が小さい場合でも、かなりの節約を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。