Skip to main content
QUICK REVIEW

[論文レビュー] First Analysis of Local GD on Heterogeneous Data

Ahmed Khaled, Konstantin Mishchenko|arXiv (Cornell University)|Sep 10, 2019
Stochastic Gradient Optimization Techniques参考文献 19被引用数 67
ひとこと要約

論文は、デバイス間で異種データを持つL-滑らかな凹凸関数の平均を最小化するための局所勾配法の収束解析を初めて提供し、低精度領域では標準勾配法の通信複雑さと一致することを示す。

ABSTRACT

We provide the first convergence analysis of local gradient descent for minimizing the average of smooth and convex but otherwise arbitrary functions. Problems of this form and local gradient descent as a solution method are of importance in federated learning, where each function is based on private data stored by a user on a mobile device, and the data of different users can be arbitrarily heterogeneous. We show that in a low accuracy regime, the method has the same communication complexity as gradient descent.

研究の動機と目的

  • 各 f_m が凸で L-滑らかであるとして、平均目的 f(x)= (1/M) sum_m f_m(x) の局所勾配法を動機付け、分析する。
  • 連合学習におけるデバイス間の非 i.i.d. データに対処し、勾配の有界仮定なしで収束を理解する。
  • 近傍収束境界を導出し、通信複雑性を精度とデータヘテロ性に関連付ける。
  • ヘテロ性の指標 σ^2 = (1/M) sum_m ||∇f_m(x_*)||^2 が収束を支配する役割を強調する。
  • 局所ステップ (H) と同期が集中型 GD と比較して収束に与える影響を示す。

提案手法

  • M 個のデバイス間で周期的に同期を取る局所勾配法を定義し、同期の間の局所更新を行う。
  • 最適性ギャップの再帰 relation を、r_t = x̂_t - x_* および V_t (反復の分散) と g_t (平均勾配) の境界を用いて証明する。
  • 適切な γ と同期間隔 H の下で、鍵となる界が f(x̄_T) - f(x_*) ≤ 2||x_0 - x_*||^2 /(γT) + 24 γ^2 σ^2 H^2 L であることを導入する。
  • γ ≤ 1/(4LH) および γ 関連の条件を満たす制約の下で、T/H を最小化して最適な通信複雑性境界を導出する。
  • Corollary 1 を通じて Local GD を minibatch SGD に関連づけ、適切な H の選択で 1/√(MT) および 1/√T の速度を示す。

実験結果

リサーチクエスチョン

  • RQ1局所勾配法は、 bounded gradient の仮定なしに、異種の L-滑らか凹凸関数の平均を最小化することに収束できるか?
  • RQ2データヘテロ性を表す σ^2 が Local GD の収束と通信複雑性にどう影響するか?
  • RQ3局所ステップ数 H、同期間隔、および目標精度に到達するまでの全体的な通信ラウンド数の関係はどうなるか?
  • RQ4非 i.i.d. データ下で Local GD は収束速度と通信効率の点で標準 GD および minibatch SGD とどう比較されるか?

主な発見

  • 適切な γ に対して、収束境界 f(x̄_T) - f(x_*) ≤ 2||x_0 - x_*||^2 /(γT) + 24 γ^2 σ^2 H^2 L を達成する。
  • ε がそれほど小さくない場合(ε ≥ 3σ^2/L)、通信複雑性は定数を除き勾配法と同等の水準に一致する。
  • ε < 3σ^2/L の場合、通信複雑性は O(√L σ / ε^{3/2}) にスケールする。
  • Corollary は適切な H と γ に対して通信ラウンドの 1/√(MT) という速度を示し、minibatch SGD とのトレードオフを示す。
  • Local GD は σ^2 によって決まる近傍サイズを持つ minibatch SGD のように振る舞い、ヘテロゲネイティの影響を強調する。
  • LIBSVM データセットでの実証結果は理論が実践と一致することを示し、より高い通信コスト下で正確な精度を要求しない局所法が有利となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。