Skip to main content
QUICK REVIEW

[論文レビュー] Local SGD with Periodic Averaging: Tighter Analysis and Adaptive Synchronization

Farzin Haddadpour, Mohammad Mahdi Kamani|arXiv (Cornell University)|Oct 30, 2019
Reinforcement Learning in Robotics被引用数 92
ひとこと要約

本論文は、Polyak-Łojasiewicz (PL) 条件下で周期的モデル平均化を用いた Local SGD の収束解析を強化し、O((pT)^{1/3}) 通信ラウンドで線形スピードアップを示し、適応的同期スキームを導入する。

ABSTRACT

Communication overhead is one of the key challenges that hinders the scalability of distributed optimization algorithms. In this paper, we study local distributed SGD, where data is partitioned among computation nodes, and the computation nodes perform local updates with periodically exchanging the model among the workers to perform averaging. While local SGD is empirically shown to provide promising results, a theoretical understanding of its performance remains open. We strengthen convergence analysis for local SGD, and show that local SGD can be far less expensive and applied far more generally than current theory suggests. Specifically, we show that for loss functions that satisfy the Polyak-Łojasiewicz condition, $O((pT)^{1/3})$ rounds of communication suffice to achieve a linear speed up, that is, an error of $O(1/pT)$, where $T$ is the total number of model updates at each worker. This is in contrast with previous work which required higher number of communication rounds, as well as was limited to strongly convex loss functions, for a similar asymptotic performance. We also develop an adaptive synchronization scheme that provides a general condition for linear speed up. Finally, we validate the theory with experimental results, running over AWS EC2 clouds and an internal GPU cluster.

研究の動機と目的

  • 通信オーバーヘッドを減らすために、ローカルSGDと周期的平均化を用いた分散型経験的リスク最小化を動機づけ、分析する。
  • PL条件下で非凸問題に対し線形スピードアップを可能とする、より厳密な収束率を提供する。
  • バッチ/通信頻度を決定する適応的同期スキームを導入する。
  • AWS EC2およびGPUクラスタでの実験によって理論結果を検証する。

提案手法

  • モデル更新は tau の固定平均化期間でローカルに実行され、その後モデル平均化の通信ラウンドを行う(LUPA-SGD(tau))。
  • 無偏分散を持つ確率勾配(stochastic gradients with bounded variance)とL-スムース性およびPolyak-Łojasiewicz (PL) 条件を仮定する。
  • 収束境界を導出し、E[F(x_bar^{(T)})-F*] = O(1/(pBT)) となることを tau = O(T^{2/3}/p^{1/3}) のとき示す。
  • 現在の目的関数ギャップ F(x_bar^{(i tau_0)})-F* に基づいて tau_i を適応的に選択して線形スピードアップを保つ ADA-LUPA-SGD を提案する。
  • 先行の local-SGD 分析と比較し、より弱い仮定がより厳密なレートを生む方法を説明する。

実験結果

リサーチクエスチョン

  • RQ1Local SGD with periodic averaging は、非凸 PL 条件下で通信ラウンドを減らして線形スピードアップを達成できるか?
  • RQ2線形スピードアップを維持するための局所更新 tau の最も厳密な境界はどれか?
  • RQ3適応的同期スキームは実践的な性能を改善しつつ理論的保証を維持できるか?
  • RQ4PL 条件と滑らか性の仮定は、勾配/分散の有界仮定と比較してより速い収束を得る際にどう影響するか?
  • RQ5クラウドやGPUクラスタでの経験的結果は理論的利点と一致するか?

主な発見

  • PL 条件の下で非凸目的関数に対して、O((pT)^{1/3}) の通信ラウンドで線形スピードアップを誤差 O(1/(pT)) で達成できる。
  • tau = O(T^{2/3}/p^{1/3}) かつ固定ミニバッチ B のとき、誤差は O(1/(pBT)) を達成する。
  • 適応的同期スキーム(ADA-LUPA-SGD)は合理的な条件下で線形スピードアップを維持し、固定周期的平均化よりも優れる場合がある。
  • 有界勾配仮定を除去することで適用範囲が広がり、従来の研究よりも通信効率の改善が得られる。
  • AWS EC2 および内部GPUクラスタでの実験は理論的改善を検証し、実務的な速度向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。