QUICK REVIEW

[論文レビュー] Improving the Model Consistency of Decentralized Federated Learning

Yifan Shi, Li Shen|arXiv (Cornell University)|Feb 8, 2023

Privacy-Preserving Technologies in Data被引用数 11

ひとこと要約

この論文は、Sharpness Aware Minimization と複数の gossip ステップを分散型連合学習に統合し、局所モデルの不整合を減らすための DFedSAM および DFedSAM-MGS を提案し、理論的収束保証と中央集権的 FL に対する競争力のある経験的結果を示す。

ABSTRACT

To mitigate the privacy leakages and communication burdens of Federated Learning (FL), decentralized FL (DFL) discards the central server and each client only communicates with its neighbors in a decentralized communication network. However, existing DFL suffers from high inconsistency among local clients, which results in severe distribution shift and inferior performance compared with centralized FL (CFL), especially on heterogeneous data or sparse communication topology. To alleviate this issue, we propose two DFL algorithms named DFedSAM and DFedSAM-MGS to improve the performance of DFL. Specifically, DFedSAM leverages gradient perturbation to generate local flat models via Sharpness Aware Minimization (SAM), which searches for models with uniformly low loss values. DFedSAM-MGS further boosts DFedSAM by adopting Multiple Gossip Steps (MGS) for better model consistency, which accelerates the aggregation of local flat models and better balances communication complexity and generalization. Theoretically, we present improved convergence rates $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{1}{K^{1/2}T^{3/2}(1-λ)^2}\big)$ and $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{λ^Q+1}{K^{1/2}T^{3/2}(1-λ^Q)^2}\big)$ in non-convex setting for DFedSAM and DFedSAM-MGS, respectively, where $1-λ$ is the spectral gap of gossip matrix and $Q$ is the number of MGS. Empirically, our methods can achieve competitive performance compared with CFL methods and outperform existing DFL methods.

研究の動機と目的

分散型連合学習（DFL）における局所モデル間の高い不整合を動機付け、対処する。
Sharpness Aware Minimization（SAM）を用いて局所的に平坦なモデルを生成するためのDFedSAMを提案する。
DFedSAM に DFedSAM-MGS の複数の gossip ステップを導入し、合意性を改善し通信と汎化のバランスを取る。
トポロジー（スペクトルギャップ）、データの異質性、SAMの摂動、MGS の影響を捉えた非凸収束保証を提供する。
提案手法が CFL と競合的な性能を示し、CIFAR-10/100 において既存のDFLベースラインを上回ることを経験的に示す。

提案手法

隣接ノードのみでの通信を行う連結グラフ上の DFL 目的関数を定義する。
SAM ベースの局所更新を適用する： y^{t,k+1}(i)=y^{t,k}(i) - η ∇F_i(y^{t,k}(i) + δ(y^{t,k}); ξ) ただし δ(y)=ρ g/||g||_2。
通信前に K 回の局所内反復を行い z^{t}(i) を得て、その後集約する： x^{t+1}(i) = ∑_{l∈N(i)} w_{i,l} z^{t}(l)。
DFedSAM-MGS では各ラウンドに Q 回の gossip ステップを導入し、x^{t,q+1}(i)=∑_{l∈N(i)} w_{i,l} z^{t,q}(l) および z^{t,q+1}(i)=x^{t,q+1}(i) for q=0,...,Q-1。
非凸設定における理論的収束境界を提供する：O(1/√(KT) + 1/T + (1−λ) および Q に依存する項)。
CIFAR-10/100 における IID および非 IID の分割で、FedAvg、FedSAM、D-PSGD、DFedAvg、DisPFL を用いた比較を実施する。

Figure 1: Illustrations of CFL (a) and DFL (b). For DFL, the various communication topologies are shown in Appendix A .

実験結果

リサーチクエスチョン

RQ1SAM は分散型 FL における局所モデルの過剰適合を低減し、汎化を改善できるか。
RQ2gossip ステップを増やす（MGS）とモデルの合意性が向上し、CFL への gap が様々なトポロジで縮まるか。
RQ3DFedSAM および DFedSAM-MGS の確率的非凸分散型設定における収束保証はどのようになるか。
RQ4データの異質性とトポロジー（スペクトルギャップ）が性能に与える影響はどのようで、提案手法はこれらの影響をどのように緩和するか。
RQ5DFedSAM と DFedSAM-MGS は標準データセット上で CFL や既存の DFL ベースラインと競合的または優れた性能を達成するか。

主な発見

Algorithm	Ring	Grid	Exp	Full
D-PSGD	68.96	74.36	74.90	75.35
DFedAvg	69.95	80.17	83.13	83.48
DFedAvgM	72.55	85.24	86.94	87.50
DFedSAM	73.19	85.28	87.44	88.05
DFedSAM-MGS	80.55	87.39	88.06	88.20

DFedSAM は特に DFedSAM-MGS が CIFAR-10/100 において IID および非 IID の設定で中央集権的 FedSAM と競合的な性能を達成する。
DFedSAM-MGS はトポロジーの頑健性を一貫して改善し、リング、グリッド、指数関数、完全連結ネットワークで他の DFL ベースラインと比較して性能が向上する。
これらの手法は generalization error を低減し、損失平坦性を生み出すことでクライアント間のモデル整合性を改善する。
理論的収束率はトポロジー（スペクトルギャップ）、MGS ステップ数 Q、摂動半径 ρ に依存して改善を示し、経験的結果と整合する。
経験的結果は、より大きな Q（複数の gossip ステップ）が合意を改善し、トポロジーに起因する劣化を緩和することを示し、DFedSAM-MGS がしばしば DFedSAM や他のベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。