Skip to main content
QUICK REVIEW

[論文レビュー] Is Local SGD Better than Minibatch SGD?

Blake Woodworth, Kumar Kshitij Patel|arXiv (Cornell University)|Feb 18, 2020
MRI in cancer diagnosis参考文献 37被引用数 45
ひとこと要約

本論文はローカル SGD( parallel/federated averaging )を分析し、二次目的関数においてローカル SGD はミニバッチ SGD を厳密に上回ることがあり、加速変種がミニマックス最適となることを示す;一般凸目的にはローカル SGD がミニバッチ SGD を上回る領域が存在する一方で、ミニバッチ SGD がローカル SGD を上回る領域も存在し、ローカル SGD は普遍的に最適とは限らない。

ABSTRACT

We study local SGD (also known as parallel SGD and federated averaging), a natural and frequently used stochastic distributed optimization method. Its theoretical foundations are currently lacking and we highlight how all existing error guarantees in the convex setting are dominated by a simple baseline, minibatch SGD. (1) For quadratic objectives we prove that local SGD strictly dominates minibatch SGD and that accelerated local SGD is minimax optimal for quadratics; (2) For general convex objectives we provide the first guarantee that at least sometimes improves over minibatch SGD; (3) We show that indeed local SGD does not dominate minibatch SGD by presenting a lower bound on the performance of local SGD that is worse than the minibatch SGD guarantee.

研究の動機と目的

  • Local SGD と同じ計算/通信構造の下で分散一階手法の研究を動機づける。
  • 凸および二次目的関数に対して Local SGD が minibatch SGD を改善する条件を特徴付ける。
  • minibatch SGD が依然として打ち勝つ領域、あるいは Local SGD が劣る領域を特定する。
  • Local SGD の性能トレードオフを明らかにする上限・下限を提供する。

提案手法

  • Local SGD を M ワーカー、通信ごとに K 回のローカルステップ、通信ラウンド R でモデル化する。
  • 総バッチサイズ KM を各ラウンドで用いて実装された minibatch SGD と Local SGD を比較する。
  • H-滑らかさと分散境界 sigma^2 を持つ一般凸/強凸確率的最適化フレームワークを用いて解析する。
  • 二次目的関数について Local SGD の平均化が minibatch SGD にマッチするか、または上回ることを証明する。
  • 一般凸目的関数に対して minibatch SGD を凌ぐことができる初の非自明な上界を導出する。
  • Local SGD がいくつかの領域で minibatch SGD より劣る可能性を示す難しいインスタンスを構成する。

実験結果

リサーチクエスチョン

  • RQ1二次設定では Local SGD は minibatch SGD を支配するか、少なくとも同等か。
  • RQ2一般 convex 目的に対して Local SGD は minibatch SGD を上回ることができるか、どの条件下で。
  • RQ3ある領域で Local SGD が minibatch SGD より劣ることを示す基本的な下界は存在するか。
  • RQ4同じ計算/通信制約の下で Local SGD の性能を記述する厳密な上界および下界は何か。

主な発見

  • 二次目的関数の場合、Local SGD は minibatch SGD を厳密に支配し、加速 Local SGD はミニマックス最適。
  • 一般凸目的関数では、M が大きく K ≳ R の領域で Local SGD が minibatch SGD を改善する領域が存在。
  • ある領域で Local SGD が minibatch SGD より劣る下界が存在し、経験的結果(ロジスティック回帰)はこの挙動と一致。
  • 総じて Local SGD は minibatch SGD よりしばしば優れているが普遍的に最適とは限らず、minibatch SGD または thumb-twiddling SGD が Local SGD を凌ぐ領域も存在。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。