QUICK REVIEW

[論文レビュー] Overcoming Forgetting in Federated Learning on Non-IID Data

Neta Shoham, Tomer Avidor|arXiv (Cornell University)|Oct 17, 2019

Privacy-Preserving Technologies in Data参考文献 17被引用数 143

ひとこと要約

この論文は Elastic Weight Consolidation を連合学習に適用し、FedCurv を作成。忘却を防ぎ、非IIDデータ上での収束を改善し、全参加と効率的な帯域幅使用を実現。

ABSTRACT

We tackle the problem of Federated Learning in the non i.i.d. case, in which local models drift apart, inhibiting learning. Building on an analogy with Lifelong Learning, we adapt a solution for catastrophic forgetting to Federated Learning. We add a penalty term to the loss function, compelling all local models to converge to a shared optimum. We show that this can be done efficiently for communication (adding no further privacy risks), scaling with the number of nodes in the distributed setting. Our experiments show that this method is superior to competing ones for image recognition on the MNIST dataset.

研究の動機と目的

ローカルモデルが離れる非IIDデータを伴う連邦学習の課題を動機づける。
ライフロングラーニングに着想を得たペナルティを採用し、ラウンド間で重要なパラメータを保持する。
FedCurv を開発し、プライバシーと帯域幅を保ちながら曲率情報を共有する。
MNIST を対象としたベースラインと比較して、FedCurv が収束とスケーラビリティを改善することを示す。
1ラウンドあたりの大きなローカルエポック数（E）が忘却緩和とどのように相互作用するかを検討する。

提案手法

Elastic Weight Consolidation (EWC) を連合学習に適用して FedCurv を形成する。
各ラウンドで、各ノードは他のノードからの対角Fisher情報 diag(I) を含むペナルティを付加した局所損失を最適化する。
プライバシーを保ち、帯域幅を低く保つために、ノード間で集約された勾配関連情報のみを共有する。
ラウンド損失を L_t,s(θ) に加えて、他のノードの (θ−θ̂_{t-1,j})^T diag(Ĩ_{t-1,j}) (θ−θ̂_{t-1,j}) の和として表現する。
θ̂_t を前ラウンドのノードパラメータの平均として初期化し、E 個のローカル SGD エポックを実行する。
最小限の通信でペナルティ項を再構成し、セキュアなアグリゲーションを可能にするために、2つの集約ベクトル u_t と v_t を維持する。

実験結果

リサーチクエスチョン

RQ1FedCurv は非IIDデータにおいて収束速度と最終精度の点で FedAvg や FedProx を上回るか？
RQ2ラウンドあたりのローカルエポック数 E が非IID分布での性能にどう影響するか？
RQ3曲率ベースのペナルティを低帯域で実装し、FedAvg に類似したプライバシー保護を維持できるか？
RQ4FedCurv で全参加と部分参加を用いた場合の影響は？
RQ5シミュレートされた連合設定でノード数が増えると FedCurv はどのようにスケールするか？

主な発見

FedCurv は FedAvg より高速に収束し、特に E が大きい場合（例: 50）に顕著で、より少ないラウンドで 90% の精度を達成する。
E=50 の場合、FedCurv は 9 ラウンドで 90%、38 ラウンドで 95% に到達し、非 IID MNIST 設定で FedAvg および FedProx を上回る。
E=10 でも優位を示し、90% に 35 ラウンド、95% に 99 ラウンドで到達し、他の選択肢を上回る。
FedProx は FedAvg より改善するが、高い E の場合、最高精度の達成には FedCurv より効果が小さい。
本手法は集約された勾配関連情報のみを共有することでプライバシーを保ち、FedAvg と同様にセキュアアグリゲーションを用いることができる。
パフォーマンスを犠牲にせず、スパースな対角Fisher情報を活用することで帯域幅をさらに削減できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。