Skip to main content
QUICK REVIEW

[論文レビュー] Variance Reduced Local SGD with Lower Communication Complexity

Xianfeng Liang, Shuheng Shen|arXiv (Cornell University)|Dec 30, 2019
Advanced Image and Video Retrieval Techniques参考文献 37被引用数 89
ひとこと要約

VRL-SGDはLocal SGDに分散非同一データ学習での分散性の低減を組み込むことにより通信を削減し、通信複雑性を低くし、反復の線形速度アップを実現する。

ABSTRACT

To accelerate the training of machine learning models, distributed stochastic gradient descent (SGD) and its variants have been widely adopted, which apply multiple workers in parallel to speed up training. Among them, Local SGD has gained much attention due to its lower communication cost. Nevertheless, when the data distribution on workers is non-identical, Local SGD requires $O(T^{\frac{3}{4}} N^{\frac{3}{4}})$ communications to maintain its \emph{linear iteration speedup} property, where $T$ is the total number of iterations and $N$ is the number of workers. In this paper, we propose Variance Reduced Local SGD (VRL-SGD) to further reduce the communication complexity. Benefiting from eliminating the dependency on the gradient variance among workers, we theoretically prove that VRL-SGD achieves a \emph{linear iteration speedup} with a lower communication complexity $O(T^{\frac{1}{2}} N^{\frac{3}{2}})$ even if workers access non-identical datasets. We conduct experiments on three machine learning tasks, and the experimental results demonstrate that VRL-SGD performs impressively better than Local SGD when the data among workers are quite diverse.

研究の動機と目的

  • 非同一データ分布下で分散 SGD の加速を動機づけ、通信を削減する。
  • 追加の仮定なしに、ワーカー間の勾配分散を軽減する Local SGD の改良版を開発する。
  • 通信を削減した上での理論的収束保証と線形スピードアップを確立する。
  • 非同一データ分布を持つ標準的な機械学習タスクで実用的有効性を示す。

提案手法

  • Local SGD の一部として分散減少成分を組み込んだ VRL-SGD を導入し、局所勾配と全局勾配を揃える。
  • 通信期間を跨ぐ全局勾配差を近似する梯度補正項 Delta_i を計算する。
  • Delta_i で補正された確率的勾配で局所モデルを更新し、ワーカー間の分散を低減する。
  • 通信間でkステップの局所更新を許可し、通信ラウンドを低減する。
  • O(T^{-1/2}N^{-1/2}) 率と改善された通信複雑性を示す理論的収束解析を提供する。
  • 非同一データのシナリオで通信複雑性を O(T^{3/4}N^{3/4}) から O(T^{1/2}N^{3/2}) に低減させることを示す。

実験結果

リサーチクエスチョン

  • RQ1非同一データ下で Local SGD におけるワーカー間の勾配分散の依存性を分散減少で消せるか?
  • RQ2VRL-SGD と Local SGD および S-SGD を比較した場合の通信複雑性と反復速度の向上はどうなるか?
  • RQ3VRL-SGD の保証は非凸目的関数および同一データシナリオにも拡張されるか?
  • RQ4非同一データタスク(画像、テキスト、転移学習)における実データ的な性能は、ベースラインと比較してどうか?

主な発見

  • 非同一データの場合、VRL-SGD は通信複雑性を低く抑えつつ線形のイテレーションスピードアップを達成し、O(T^{1/2}N^{3/2}) の線形イテレーションスピードアップを実現する。
  • 従来の Local SGD 分析で用いられてきた有界勾配分散や同一データ仮定を必要としない。
  • MNIST、DBPedia、tiny ImageNet の実証結果は、データが非同一の場合にVRL-SGDがLocal SGDを上回り、データが同一の場合にはS-SGD/Local SGDと同等であることを示す。
  • 理論的には、適切な学習率と通信間隔設定で非凸目的関数に対して収束率 O(1/√(NT)) を示す。
  • ウォームアップ版(VRL-SGD-W)は非 iid 初期化(C項)の依存を低減し、収束を引き締める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。