Skip to main content
QUICK REVIEW

[論文レビュー] Asynchronous Decentralized Parallel Stochastic Gradient Descent

Xiangru Lian, Wei Zhang|arXiv (Cornell University)|Oct 18, 2017
Stochastic Gradient Optimization Techniques参考文献 52被引用数 68
ひとこと要約

AD-PSGDは待機フリーの非同期分散SGDで、最適な収束速度 O(1/√K) とワーカ数に対する線形スピードアップを実現し、異種環境での分散型および集中型のベースラインよりも優れています。

ABSTRACT

Most commonly used distributed machine learning systems are either synchronous or centralized asynchronous. Synchronous algorithms like AllReduce-SGD perform poorly in a heterogeneous environment, while asynchronous algorithms using a parameter server suffer from 1) communication bottleneck at parameter servers when workers are many, and 2) significantly worse convergence when the traffic to parameter server is congested. Can we design an algorithm that is robust in a heterogeneous environment, while being communication efficient and maintaining the best-possible convergence rate? In this paper, we propose an asynchronous decentralized stochastic gradient decent algorithm (AD-PSGD) satisfying all above expectations. Our theoretical analysis shows AD-PSGD converges at the optimal $O(1/\sqrt{K})$ rate as SGD and has linear speedup w.r.t. number of workers. Empirically, AD-PSGD outperforms the best of decentralized parallel SGD (D-PSGD), asynchronous parallel SGD (A-PSGD), and standard data parallel SGD (AllReduce-SGD), often by orders of magnitude in a heterogeneous environment. When training ResNet-50 on ImageNet with up to 128 GPUs, AD-PSGD converges (w.r.t epochs) similarly to the AllReduce-SGD, but each epoch can be up to 4-8X faster than its synchronous counterparts in a network-sharing HPC environment. To the best of our knowledge, AD-PSGD is the first asynchronous algorithm that achieves a similar epoch-wise convergence rate as AllReduce-SGD, at an over 100-GPU scale.

研究の動機と目的

  • 異種環境で中央のボトルネックなしの堅牢でスケーラブルな分散トレーニングを動機づける。
  • アイドルタイムと中央サーバーボトルネックを回避する非同期分散SGDの設計。
  • 最適な速度での収束を証明し、ワーカー数の増加による線形スピードアップを確立する。
  • 大規模データセット(ImageNet)で実証評価を行い、ベースラインに対する実用的なスピードアップを示す。

提案手法

  • 各ワーカーは局所モデルを維持し、ミニバッチで計算された確率的勾配でそれを更新する。
  • ノードは非同期の局所更新を実行し、二重確率行列 W_k を介して隣接ノードと局所モデルをランダムに平均する。
  • グローバル更新は X_{k+1}=X_k W_k - γ ∂g(Ẋ_k; ξ_k^{i_k}, i_k) と書け、Ẋ_k = X_{k-τ_k} は有界の古さを表す。
  • デッドロックフリー、待機フリーの実装は隣接平均をスケジュールするために二部グラフを用い、全体的な同期を回避する。
  • トポロジーの選択には、情報伝播の加速と頑健性を高めるための環状(リング)ベースおよびマルチホップ(対数的)接続が含まれる。
  • 理論解析はリプシッツ勾配、限界分散、スペクトルギャップ ρ、及び有界な古さ T を仮定し、O(1/√K) の収束率と線形スピードアップをもたらす。

実験結果

リサーチクエスチョン

  • RQ1非同期分散トレーニングは中央のパラメータサーバーなしで収束を達成し、競合する収束速度を維持できるか?
  • RQ2異種環境でワーカー数が増加するにつれて AD-PSGD は線形スピードアップを実現するか?
  • RQ3計算および通信速度の異質性がワーカーとリンク間でアルゴリズムの頑健性にどの程度影響するか?

主な発見

  • アルゴリズムは最適な O(1/√K) 速度で収束し、SGD および D-PSGD と一致する。
  • AD-PSGD はワーカー数に関して線形スピードアップを達成する。
  • 経験的には、AD-PSGD は AllReduce-SGD、D-PSGD、A-PSGD を上回り、異種環境ではしばしば数量的に大きく上回る。
  • ImageNet で最大 128 GPU の場合、AD-PSGD はエポック数で AllReduce-SGD に類似して収束するが、ネットワーク共有 HPC 環境ではエポックあたりの時間が4~8倍速い。
  • 均一な共有ネットワーククラスターでは、AD-PSGD は同期ベースラインをエポックあたりの実行時間で4×–8×上回る。
  • AD-PSGD は遅いワーカーとネットワークリンクへの頑健性を示し、ストレagラーの影響を局所化することで強い頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。