Skip to main content
QUICK REVIEW

[論文レビュー] Local SGD Converges Fast and Communicates Little

Sebastian U. Stich|arXiv (Cornell University)|May 24, 2018
Stochastic Gradient Optimization Techniques参考文献 53被引用数 222
ひとこと要約

この論文はLocal SGDがワーカー数とミニバッチサイズの線形スピードアップを達成する一方、通信ラウンドをO(√(T/(Kb)))の因子まで削減できることを、凸問題に対して示す。

ABSTRACT

Mini-batch stochastic gradient descent (SGD) is state of the art in large scale distributed training. The scheme can reach a linear speedup with respect to the number of workers, but this is rarely seen in practice as the scheme often suffers from large network delays and bandwidth limits. To overcome this communication bottleneck recent works propose to reduce the communication frequency. An algorithm of this type is local SGD that runs SGD independently in parallel on different workers and averages the sequences only once in a while. This scheme shows promising results in practice, but eluded thorough theoretical analysis. We prove concise convergence rates for local SGD on convex problems and show that it converges at the same rate as mini-batch SGD in terms of number of evaluated gradients, that is, the scheme achieves linear speedup in the number of workers and mini-batch size. The number of communication rounds can be reduced up to a factor of T^{1/2}---where T denotes the number of total steps---compared to mini-batch SGD. This also holds for asynchronous implementations. Local SGD can also be used for large scale training of deep learning models. The results shown here aim serving as a guideline to further explore the theoretical and practical aspects of local SGD in these applications.

研究の動機と目的

  • 大規模分散SGDにおける通信ボトルネックを動機づけ、解決する。
  • 労働者が独立して進化し、定期的に同期するLocal SGDを分析する。
  • 局所的な更新の平均化が計算の線形スピードアップをもたらし、通信ラウンドを削減することを証明する。
  • ステップサイズと同期頻度に関する実践的なガイドラインを提供する。

提案手法

  • 問題をL-滑らかでmu-強凸なfを持つ有限和凸最適化としてモデル化する。
  • ミニバッチサイズbでK個の並列SGD系列を実行し、H回の反復ごとに平均化して同期する。
  • 振動を分析するための仮想的な平均系列を定義し、平均化による分散低減を示す。
  • 適切なステップサイズの下で平均化された反復の収束率を導出し、漸近的にO(1/(KT B))の挙動を示す。
  • sigma^2をsigma^2/bに置き換えてミニバッチLocal SGDへ拡張し、分散低減を考慮する。
  • すべてのステップで同期を要求しない非同期変種を示し、同様の収束保証を与える。

実験結果

リサーチクエスチョン

  • RQ1平均化した局所的に進化するSGD系列は、単一のワーカーでのSGD実行に対して線形のスピードアップを生むか。
  • RQ2通信間隔Hは収束にどう影響するか、計算と通信のトレードオフをどのように定量化できるか。
  • RQ3ミニバッチSGDと同等の収束速度を保ちつつ通信ラウンドを削減できるか、またミニバッチサイズbとワーカー数Kはどう相互作用するか。
  • RQ4遅延または非同期更新下で、非同期の局所SGD方式は同様の収束特性を保つか。

主な発見

  • Local SGDは凸問題に対してワーカー数Kと局所ミニバッチサイズbで線形スピードアップを達成する。
  • 同期間隔H = O(√(T/(Kb)))で、収束の漸近的性を損なうことなく、通信ラウンド数を最大でO(√(T/(Kb)))の因子まで削減する。
  • 平均化された点x̂_Tの収束率は E[f(x̂_T)] - f* = O(G^2/(μ b K T)) であり、計算面でのパラレルミニバッチSGDと同等を保ちつつ通信を削減する。
  • ミニバッチLocal SGDでは分散項がsigma^2/bのスケーリングとなり、bとKに関して線形スピードアップを維持する(速度率は約O(1/(KTb)))。
  • 非同期版では遅延が有界であれば同様のレートを示し、厳密な同期なしでもスピードアップが起こり得ることを示唆する。
  • 理論的結果はHとステップサイズの選択に関する実践的ガイドラインを提供し、計算と通信のバランスを取る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。