Skip to main content
QUICK REVIEW

[論文レビュー] On the Convergence of FedAvg on Non-IID Data

Xiang Li, Kaixuan Huang|arXiv (Cornell University)|Jul 4, 2019
Privacy-Preserving Technologies in Data参考文献 48被引用数 1,011
ひとこと要約

この論文は、非IIDデータを用い、強凸かつ滑らかな問題に対して FedAvg の O(1/T) 収束速度を証明し、部分的なデバイス参加を分析し、E>1 の場合の収束には学習率の減衰が必要であることを示す。

ABSTRACT

Federated learning enables a large amount of edge computing devices to jointly learn a model without data sharing. As a leading algorithm in this setting, Federated Averaging ( exttt{FedAvg}) runs Stochastic Gradient Descent (SGD) in parallel on a small subset of the total devices and averages the sequences only once in a while. Despite its simplicity, it lacks theoretical guarantees under realistic settings. In this paper, we analyze the convergence of exttt{FedAvg} on non-iid data and establish a convergence rate of $\mathcal{O}(\frac{1}{T})$ for strongly convex and smooth problems, where $T$ is the number of SGDs. Importantly, our bound demonstrates a trade-off between communication-efficiency and convergence rate. As user devices may be disconnected from the server, we relax the assumption of full device participation to partial device participation and study different averaging schemes; low device participation rate can be achieved without severely slowing down the learning. Our results indicate that heterogeneity of data slows down the convergence, which matches empirical observations. Furthermore, we provide a necessary condition for exttt{FedAvg} on non-iid data: the learning rate $η$ must decay, even if full-gradient is used; otherwise, the solution will be $Ω(η)$ away from the optimal.

研究の動機と目的

  • 非IIDデータと限定的なデバイス参加でフェデレーテッドラーニングの動機付け。
  • iid/データ活性化仮定なしで FedAvg の収束保証を確立。
  • ローカル更新(E)とサンプリング方式が収束と通信に及ぼす影響を特徴づける。
  • 複数のローカル更新を伴う FedAvg に対し学習率減衰の必要性を示す。

提案手法

  • グローバル目的関数 F(w)=sum p_k F_k(w) を持つ分散最適化として FedAvg をモデル化する。
  • 全デバイス参加および部分的デバイス参加を分析し、S_t というサンプリング方式と平均化ルールを導入する。
  • F_k が L-滑らかかつ μ-強凸であるという仮定の下で O(1/T) 収束を証明する。
  • データのヘテロジェニティ Γ に依存する通信ラウンドの明示的境界を導出する。
  • 収束を保証するためには、E>1 の場合、全勾配を用いても学習率は減衰する必要があることを示す。
  • 収束を達成するためのサンプリング/平均化スキームを提案・比較する。

実験結果

リサーチクエスチョン

  • RQ1デバイス間のデータが非 IID で、すべてのデバイスが毎ラウンド参加しない場合でも FedAvg は収束保証を達成できるか?
  • RQ2非 IID データを用いた強凸性と滑らかさの下で FedAvg の収束速度はどうなるか?
  • RQ3局所更新ステップ(E)と参加サイズ(K)が収束速度と通信コストのトレードオフにどう影響するか?
  • RQ4非 IID 設定における FedAvg の収束には学習率減衰が必要か、もし必要ならその理由は?
  • RQ5どのサンプリングと平均化スキームが収束を保証し、データのヘテロジニティとバランスはそれにどのように影響するか?

主な発見

  • FedAvg は、非 IID データを持つ強凸かつ滑らかな問題に対して O(1/T) 収束速度を達成する。
  • 部分的なデバイス参加は分散を高い分散により収束を遅らせるが、適切な条件下で収束は依然として成り立つ。
  • E の最適な選択は通信と収束のバランスを取る; どちらも小さすぎても大きすぎても普遍的に最良とはいえない。
  • データのヘテロジニティ(非 IID)は収束を遅らせる、経験的知見と一致する。
  • E>1 の場合、全勾配を用いても最適解へ収束させるには減衰する学習率が必要である。
  • 特定のサンプリング/平均化スキーム (例: 非一様サンプリングと置換) は非 IID 設定下で O(1/T) 速度を達成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。