[論文レビュー] Personalized Cross-Silo Federated Learning on Non-IID Data
FedAMPを紹介する。非IIDデータ上で個別化されたクロスシロ連合学習のための注意機構付きメッセージパッシングフレームワークで、単一のグローバルモデルを持たずにクライアント間のペアワイズ協調を可能にし、収束証明と経験的に強い結果を示す。
Non-IID data present a tough challenge for federated learning. In this paper, we explore a novel idea of facilitating pairwise collaborations between clients with similar data. We propose FedAMP, a new method employing federated attentive message passing to facilitate similar clients to collaborate more. We establish the convergence of FedAMP for both convex and non-convex models, and propose a heuristic method to further improve the performance of FedAMP when clients adopt deep neural networks as personalized models. Our extensive experiments on benchmark data sets demonstrate the superior performance of the proposed methods.
研究の動機と目的
- クライアントデータが非IIDで組織間で多様である場合の個別化されたクロスシロFLを動機付ける。
- 単一のグローバルモデルを回避するペアワイズ協力メカニズムを提案する。
- 個別化された知識を共有する注意機構を備えたFedAMPを開発する。
- 凸・非凸設定の収束保証と深層ネットワークの実用的ヒューリスティックを提供する。
提案手法
- 局所損失と注意ベースのペアワイズ正則化項を組み合わせた個別化フェデレーテッドラーニング目的を定式化する。
- A(0)=0であり、増加・凹・微分可能な注意誘導関数を用いる(典型的な選択: 1 - exp(-||wi - wj||^2 / sigma))。
- ペアワイズ項の勾配降下による中間Uを最初に更新し、次に局所損失の近傍ステップでWを更新する逐次的最適化を提案する。
- クライアント-サーバー構成でFedAMPを実装し、各クライアントに個別のクラウドモデルと近傍のモデルの凸結合からなるメッセージを使用する。
- 凸G(W)に対してO(1/sqrt(K))の収束速度を、非凸G(W)に対して勾配ノルムのO(1/K)境界を証明する。
- 深層ネットを個別化モデルとして用いる場合の性能を改善するコサイン類似度ベースの重み付けヒューリスティックHeurFedAMPを提供する。
実験結果
リサーチクエスチョン
- RQ1非IIDデータの下でクライアント間のペアワイズで類似性ベースの協力は個別化モデルをどう改善できるか?
- RQ2FedAMPは凸・非凸の個別化モデルの両方で収束するか、収束速度はどうなるか?
- RQ3注意機構を用いたメッセージパッシングは標準のグローバルモデルベースの基準や局所のファインチューニングを上回るか?
- RQ4コサイン類似度ベースのヒューリスティック(HeurFedAMP)は深層ニューラルネットワークとともに性能をさらに改善するか?
主な発見
| 方法 | MNIST | FMNIST | EMNIST | CIFAR100 |
|---|---|---|---|---|
| Separate | 99.27 | 81.66 | 54.41 | 9.82 |
| FedAvg | 99.31 | 91.94 | 74.38 | 49.59 |
| FedProx | 98.81 | 90.19 | 73.14 | 46.50 |
| FedAvg-FT | 98.98 | 90.17 | 70.53 | 35.07 |
| FedProx-FT | 98.72 | 89.02 | 69.49 | 40.77 |
| SCAFFOLD | 98.89 | 89.04 | 72.51 | 43.06 |
| APFL | 98.93 | 91.03 | 73.95 | 49.02 |
| FedAMP | 99.22 | 92.05 | 74.07 | 45.68 |
| HeurFedAMP | 99.28 | 91.80 | 74.07 | 45.88 |
- FedAMPとHeurFedAMPは非IIDデータ上で複数のベースライン(FedAvg、FedProx、SCAFFOLD、APFL)を上回り、IIDデータ上でもグローバル手法と競合力を保つ。
- IID設定下では、FedAMP/HeurFedAMPがMNIST、FMNIST、EMNIST、CIFAR100で最良またはほぼ最良のBMTAを達成(例: Table 1:MNIST 99.22、FMNIST 92.05、EMNIST 74.07、CIFAR100 45.68 for FedAMP; 99.28、91.80、74.07、45.88 for HeurFedAMP)。
- 病理的な非IID設定下でもFedAMPとHeurFedAMPは強い性能を維持し、FedAvgやFedProxのようなグローバル手法の不安定性を緩和する(Table 2参照)。
- この手法は凸結合メッセージを介して適応的かつ類似クライアント間の協力を強制し、同様のクライアントをグループ化する正のフィードバックループを作り出し、個別化を高める。
- 収束解析では、FedAMPは凸G(W)の最適解へ収束し、滑らかな非凸G(W)には停留点へ収束することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。