Skip to main content
QUICK REVIEW

[論文レビュー] SCAFFOLD: Stochastic Controlled Averaging for Federated Learning

Sai Praneeth Karimireddy|arXiv (Cornell University)|Oct 14, 2019
Privacy-Preserving Technologies in Data参考文献 74被引用数 735
ひとこと要約

SCAFFOLDはFedAvgにおけるクライアントドリフトを抑制するための制御変動量を導入し、連合学習におけるデータの非同質性とクライアントサンプリングに対する頑健性と収束を速くする。収束ラウンドにおいてSGDと同等またはそれを上回り、クライアント間の類似性を活用して学習をさらに高速化する。

ABSTRACT

Federated Averaging (FedAvg) has emerged as the algorithm of choice for federated learning due to its simplicity and low communication cost. However, in spite of recent research efforts, its performance is not fully understood. We obtain tight convergence rates for FedAvg and prove that it suffers from `client-drift' when the data is heterogeneous (non-iid), resulting in unstable and slow convergence. As a solution, we propose a new algorithm (SCAFFOLD) which uses control variates (variance reduction) to correct for the `client-drift' in its local updates. We prove that SCAFFOLD requires significantly fewer communication rounds and is not affected by data heterogeneity or client sampling. Further, we show that (for quadratics) SCAFFOLD can take advantage of similarity in the client's data yielding even faster convergence. The latter is the first result to quantify the usefulness of local-steps in distributed optimization.

研究の動機と目的

  • 異種(非iid)クライアントデータとサンプリングの下でのFedAvgの非効率性を動機づけ、分析する。
  • クライアントドリフトを制御変動量で補正するSCAFFOLDを提案する。
  • データの非一様性に対する頑健性とクライアントの類似性から得られる潜在的利得を示す収束保証を確立する。
  • 凸と非凸設定の下で、FedAvg、SGD、FedProxと理論的・経験的に比較する。

提案手法

  • 局所更新を補正するために、サーバーとクライアントの制御変動量 c および ci を定義する。
  • ローカル更新ルール yi ← yi − ηl ( gi( yi ) − ci + c ) を展開する。
  • ci の更新の2つのオプションを提案する(g i(x) を計算するか、ドリフト補正更新を使用するか)。
  • ηgとサンプリングSを用いてサーバーモデルxとサーバー制御変動量cを更新するように更新を集約する。
  • 異質性の頑健性を示す収束保証と、分散減少法(SAGA など)との関連を提供する。
  • ローカルステップが用いられる場合、クライアント間の類似性(delta)が二次関数の収束を改善できることを示す。

実験結果

リサーチクエスチョン

  • RQ1データの非均質性の下でのFedAvgの性能を、従来の結果よりも理論的により厳密に境界付けできるか?
  • RQ2クライアント側およびサーバー側の制御変動量を導入することは、クライアントドリフトを緩和し、通信ラウンドを削減するか?
  • RQ3多様なクライアントの類似性とサンプリング条件の下で、SCAFFOLDは強凸・凸・非凸目的関数に対してSGD、FedAvg、FedProxとどのように比較されるか?
  • RQ4ローカルステップを使用する場合、クライアント間の類似性( Hessianの非類似性 delta)はどの程度収束を改善できるか?

主な発見

  • FedAvgは異質なデータ下でクライアントドリフトに悩まされ、勾配が全てであっても完全参加であっても収束が遅くなる。
  • SCAFFOLDは少なくともSGDと同程度の速さで収束し、クライアントサンプリングに対して頑健で、データの非一様性の影響を減らす。
  • 強凸目的関数では、適切な設定でSCAFFOLDがSGDと同等の収束速度を達成し、クライアントが類似している場合にはより速くなる。
  • SCAFFOLDの利点は非凸および一般的な凸の場合にも拡張され、勾配・ヘッセの非類似性とサンプリングを組み込んだ収束境界を持つ。
  • クライアントが高度に類似している場合(低 delta)、SCAFFOLDは大規模バッチ SGDを上回り、ローカルステップを効果的に活用できる。
  • 模擬データとEMNISTでの実証結果は、通信ラウンドと精度の観点でSCAFFOLDが一貫してSGD、FedAvg、FedProxを上回ることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。