[論文レビュー] Generalized Federated Learning via Sharpness Aware Minimization
FedSAM と MoFedSAM は Sharpness Aware Minimization を用いて、非IIDフェデレーテッド学習における一般化を改善し、学習の偏差を減らす。理論的な収束性と汎化境界、および強力な実証結果を伴う。
Federated Learning (FL) is a promising framework for performing privacy-preserving, distributed learning with a set of clients. However, the data distribution among clients often exhibits non-IID, i.e., distribution shift, which makes efficient optimization difficult. To tackle this problem, many FL algorithms focus on mitigating the effects of data heterogeneity across clients by increasing the performance of the global model. However, almost all algorithms leverage Empirical Risk Minimization (ERM) to be the local optimizer, which is easy to make the global model fall into a sharp valley and increase a large deviation of parts of local clients. Therefore, in this paper, we revisit the solutions to the distribution shift problem in FL with a focus on local learning generality. To this end, we propose a general, effective algorithm, exttt{FedSAM}, based on Sharpness Aware Minimization (SAM) local optimizer, and develop a momentum FL algorithm to bridge local and global models, exttt{MoFedSAM}. Theoretically, we show the convergence analysis of these two algorithms and demonstrate the generalization bound of exttt{FedSAM}. Empirically, our proposed algorithms substantially outperform existing FL studies and significantly decrease the learning deviation.
研究の動機と目的
- 非IIDデータによるデバイス間FLの分布シフトに対処する。
- グローバル目的とよりよく整合するよう、局所トレーニングの一般性を向上させる。
- 損失面を滑らかにするSAMベースの局所オプティマイザとしてFedSAMを導入する。
- モメンタムを介して局所モデルとグローバルモデルを結ぶ MoFedSAM を開発する。
- 提案手法の収束分析と汎化境界を提供する。
提案手法
- FedSAM を、min_w max_{||δ||≤ρ} f(w, {δ_i}) の問題として形式化する。ここで f はクライアント間で摂動された局所損失を集約する。
- 内側の摂動 δ_i を1次のテイラー展開で近似し、δ_i ≈ ρ ∇F_i(w)/||∇F_i(w)|| となる。
- FedSAM を2段階の局所更新で実装する:摂動を加えた後、摂動後の損失に対して勾配ステップを行う(式(4))。
- 前のラウンドのグローバル更新 Δ^r とモーメンタム項を取り入れて、局所情報とグローバル情報を融合する MoFedSAM を開発する(式(6))。
- 理論的結果を提供する:非IID FL の中でも最良クラスの収束速度に一致する収束率と FedSAM の汎化境界(定理3.1および定理3.5)。
- MoFedSAM が局所モデルとグローバルモデルの間のシャープネスを橋渡しすることにより、より速い収束と改良された一般化を提供することを示す(定理4.1)。
実験結果
リサーチクエスチョン
- RQ1局所レベルで sharpness-aware minimization を適用することは、非IIDデータの下でグローバルFLの一般化にどのような影響を与えるか?
- RQ2モメンタムベースのメカニズム(MoFedSAM)は、局所更新とグローバル情報を効果的に結合してFLの収束と一般化を改善できるか?
- RQ3全参加と部分的なクライアント参加の下で、FedSAM と MoFedSAM の収束速度と汎化保証はどうなるか?
- RQ4FedSAM および MoFedSAM は標準的な FL ベンチマークと非 IID データパーティションで堅牢な性能を提供するか?
主な発見
- FedSAM は、非IID FL設定においてERMベースのFedAvgよりもグローバルな一般化と収束を改善する。
- MoFedSAM はモーメンタムを介してグローバル更新を統合することで、より速い収束とより良い一般化をもたらす。
- Both FedSAM and MoFedSAM reduce learning deviation across diverse clients, improving robustness to data heterogeneity.
- Experiments on EMNIST, CIFAR-10, and CIFAR-100 show authors’ methods outperforming FedAvg, SCAFFOLD, FedRobust, MimeLite, and FedCM under varying non-IID conditions.
- Theoretical analyses provide convergence rates comparable to or better than existing non-IID FL methods and a margin-based generalization bound for FedSAM.
- MoFedSAM maintains effectiveness under full and partial client participation, with performance gains amplified on more complex datasets like CIFAR-100.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。