[論文レビュー] On Convergence of FedProx: Local Dissimilarity Invariant Bounds, Non-smoothness and Beyond
本論文は FedProx の局所的非類似性不変の収束境界を開発し、非滑らかかつ弱凸な連邦設定への解析を拡張し、ミニバッチ確率的拡張 FedMSPP を導入してミニバッチサイズおよびデバイス参加に線形スピードアップを実現する。
The FedProx algorithm is a simple yet powerful distributed proximal point optimization method widely used for federated learning (FL) over heterogeneous data. Despite its popularity and remarkable success witnessed in practice, the theoretical understanding of FedProx is largely underinvestigated: the appealing convergence behavior of FedProx is so far characterized under certain non-standard and unrealistic dissimilarity assumptions of local functions, and the results are limited to smooth optimization problems. In order to remedy these deficiencies, we develop a novel local dissimilarity invariant convergence theory for FedProx and its minibatch stochastic extension through the lens of algorithmic stability. As a result, we contribute to derive several new and deeper insights into FedProx for non-convex federated optimization including: 1) convergence guarantees independent on local dissimilarity type conditions; 2) convergence guarantees for non-smooth FL problems; and 3) linear speedup with respect to size of minibatch and number of sampled devices. Our theory for the first time reveals that local dissimilarity and smoothness are not must-have for FedProx to get favorable complexity bounds. Preliminary experimental results on a series of benchmark FL datasets are reported to demonstrate the benefit of minibatching for improving the sample efficiency of FedProx.
研究の動機と目的
- 現実的なデータ異質性の下で厳しい局所的非類似性仮定を置かずに、FedProx の収束性を動機づけ、理解する。
- 局所的非類似性に不変な、滑らか・非滑らか な非凸連邦最適化の収束界を導出する。
- ミニバッチ確率的拡張 FedMSPP を導入し、その母集団最適収束を解析する。
- 部分参加とミニバッチ処理が収束速度および通信複雑性に与える影響を探る。
提案手法
- 滑らか・非滑らかの両方の設定で、バニラ FedProx の局所的非類似性不変分析を提供する。
- 定理1を導出: デバイスサンプリングを伴い、(B,H)-LGD 制約なしの滑らかな非凸 FedProx の収束速度。
- 定理2を導出: デバイスサンプリングに依存しない、非滑らかで弱凸な FedProx(厳密な局所更新) の収束速度。
- FedMSPPを提案: 局所近傍点更新をミニバッチ確率的近傍点更新に置換。
- FedMSPP の定理3および定理4を、滑らかな設定と非滑らかな設定でそれぞれ提供し、ミニバッチと参加による線形スピードアップを示す。
- 他の異種FLアルゴリズムと表1を用いて比較し、LD独立性と非滑らか適用性の位置づけを行う。
実験結果
リサーチクエスチョン
- RQ1FedProx は、制限的な局所的非類似性(LGD)条件なしに収束保証を達成できるか?
- RQ2収束保証は非滑らかで弱凸な連邦最適化にも拡張されるか?
- RQ3ミニバッチ確率的近傍更新(FedMSPP)は、母集団レベルの収束を保ちつつ、ミニバッチサイズとデバイス参加で線形のスピードアップをもたらすか?
- RQ4サンプリングと部分参加は、FedProx および FedMSPP の収束速度と通信複雑性にどのように影響するか?
- RQ5提案結果は、様々なレジーム(非滑らか、部分参加など)の既存の異種FLアルゴリズムとどう比較されるか?
主な発見
| Work | Paper | Commun. Complex. | LD Independ. | NS | PP |
|---|---|---|---|---|---|
| FedProx | Li et al. (2020b) | O(1/epsilon) | ✗ | ✗ | ✓ |
| Theorem 1 (ours) | O(1/(I epsilon^2) + 1/epsilon^{3/2}) | ✓ | ✗ | ✓ | |
| Theorem 2 (ours) | O(1/epsilon^2) | ✓ | ✓ | ✓ | |
| FedMSPP | Theorem 3 (ours) | O(1/(b I epsilon^2) + 1/epsilon^{3/2}) | ✓ | ✗ | ✓ |
| Theorem 4 (ours) | O(1/epsilon^2) | ✓ | ✓ | ✓ | |
| FedAvg | Karimireddy et al. (2020) | O(1/(b I epsilon^2) + 1/epsilon^{3/2} + 1/epsilon) | ✗ | ✗ | ✓ |
| Yu et al. (2019) | O(1/(b M epsilon^2) + (M b)/epsilon) | ✗ | ✗ | ✗ | |
| Khanduri et al. (2021) | O(1/epsilon^{3/2}) | ✗ | ✗ | ✗ | |
| SCAFFOLD | Karimireddy et al. (2020) | O(1/(b I epsilon^2) + (M/I)^{2/3}/epsilon) | ✓ | ✗ | ✓ |
| FedPD | Zhang et al. (2020) | O(1/epsilon) | ✗ | ✗ | ✗ |
| STEM | Khanduri et al. (2021) | O(1/epsilon) | ✗ | ✗ | ✗ |
| FCO | Yuan et al. (2021) | O(1/(b M epsilon^2) + 1/epsilon) | ✓ | ✓ | ✗ |
- FedProx は、滑らかな非凸設定において局所的非類似性タイプ条件に依存しない収束界を達成し、速度は T および I(1ラウンドあたりのデバイス数)に依存する。
- 滑らかな問題では、収束速度は max{1/T^{2/3}, 1/sqrt(T I)} に制限され、全参加では 1/T^{2/3} に改善する。部分参加では、速度は 1/(I epsilon^2) 種類の複雑さをもたらす。
- 非滑らかで弱凸な問題に対して、FedProx は選択されたデバイス数 I に不変な 1/\sqrt{T} 速度を達成する。
- FedMSPP は FedProx をミニバッチ確率的近傍更新で拡張し、滑らかな問題に対して max{1/T^{2/3}, 1/sqrt(T b I)} の速度を達成し、ミニバッチサイズ b および参加 I による線形スピードアップを示す。
- 非滑らかな FedMSPP でも同様の 1/\sqrt{T} 速度が成り立ち、実用的な効率向上を可能にする。
- 比較表 Table 1 は、FedMSPP および関連アルゴリズムが LD 独立性と非滑らか適用性を、いくつかのベースラインと同等かそれ以上の水準で達成することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。