QUICK REVIEW

[論文レビュー] Decentralized Federated Averaging

Tong Sun, Dongsheng Li|arXiv (Cornell University)|Apr 23, 2021

Stochastic Gradient Optimization Techniques被引用数 23

ひとこと要約

本稿では、中心的なサーバーをピアツーピアのクライント通信に置き換えることで、通信効率が良く、プライバシーを保護する分散型FedAvgの代替手法である、動的を組み込んだ分散型フェデレーテッド・アベレージング（DFedAvgM）を提案する。非凸およびポリャク＝ロジャシュエヴィッチ（PŁ）条件下での収束性を保証するとともに、動的と量子化を統合することで通信コストを削減する。実験結果では、FedAvgと同等の性能を示す一方で、通信オーバーヘッドが著しく低く、プライバシー性が向上している。

ABSTRACT

Federated averaging (FedAvg) is a communication efficient algorithm for the distributed training with an enormous number of clients. In FedAvg, clients keep their data locally for privacy protection; a central parameter server is used to communicate between clients. This central server distributes the parameters to each client and collects the updated parameters from clients. FedAvg is mostly studied in centralized fashions, which requires massive communication between server and clients in each communication. Moreover, attacking the central server can break the whole system's privacy. In this paper, we study the decentralized FedAvg with momentum (DFedAvgM), which is implemented on clients that are connected by an undirected graph. In DFedAvgM, all clients perform stochastic gradient descent with momentum and communicate with their neighbors only. To further reduce the communication cost, we also consider the quantized DFedAvgM. We prove convergence of the (quantized) DFedAvgM under trivial assumptions; the convergence rate can be improved when the loss function satisfies the PŁ property. Finally, we numerically verify the efficacy of DFedAvgM.

研究の動機と目的

中央集権的なフェデレーテッド・アベレージング（FedAvg）における通信ボトルネックとプライバシーのリスクを解消すること。
FedAvgにおける単一障害点であり、プライバシー上の脆弱性でもある中央サーバーへの依存を排除すること。
トレーニング効率を維持しつつ、クライント間の通信コストを削減する分散型の代替手法を開発すること。
動的と量子化を分散型フェデレーテッドラーニングに統合し、収束性の向上と帯域幅の削減を実現すること。
一般非凸およびPŁ条件下でDFedAvgMの収束保証を理論的に確立し、DNN上でその性能を実験的に検証すること。

提案手法

クライントが非有向グラフで接続され、局所的なSGDに動的を組み込んだFedAvgの分散型変種であるDFedAvgMを提案する。
各クライントは自らのデータを用いて複数回の局所更新を実行し、隣接クライントとのみ通信することで、中央パラメータサーバーの必要性を排除する。
クライント間で圧縮（量子化）されたモデルパラメータを交換することで、さらに通信コストを削減する量子化版のDFedAvgMを導入する。
理論的分析により、標準的な非凸仮定下で、DFedAvgMの収束速度が分散型SGD（DSGD）と同等であることを示す。
ポリャク＝ロジャシュエヴィッチ（PŁ）条件下では、DFedAvgMの収束速度が一般ケースよりも速く、特定の損失関数の形状において最適化効率が向上することを示す。
通信コストを削減するための十分条件を導出し、グラフ構造と局所トレーニングのダイナミクスと関連付ける。

実験結果

リサーチクエスチョン

RQ1動的を組み込んだ分散型フェデレーテッドラーニングは、通信コストを削減し、プライバシー性を向上させつつ、FedAvgと同等の収束性を達成できるか？
RQ2分散型フェデレーテッドラーニングに量子化を統合することで、モデルの性能と収束性を維持しつつ帯域幅の使用を最小限に抑えられるか？
RQ3非凸およびPŁ条件下における動的付き分散型FedAvgの理論的収束挙動はいかなるものか？
RQ4クライントを接続するグラフ構造は、DFedAvgMの収束速度にどのように影響するか？
RQ5DFedAvgMは、IIDおよびNon-IIDなデータ設定の両方において、頑健性と効率性を維持できるか？

主な発見

一般非凸仮定下で、DFedAvgMは分散型SGD（DSGD）と同等の収束速度を達成しており、性能の劣化がない。
PŁ条件下では、DFedAvgMは一般ケースよりも速い部分線形収束速度を示し、特定の損失関数の形状において最適化効率が向上していることが示された。
量子化版のDFedAvgMは高い性能を維持しており、16ビットなど低いビット精度でも精度の低下が最小限に抑えられており、効果的な通信圧縮が可能であることが示された。
実験結果では、DFedAvgMは通信ラウンドの観点で通信コストを著しく削減している一方で、テスト精度と損失はFedAvgと同等の水準を維持している。
1回以上の局所エポックを増加させると、特に量子化を適用した場合、DFedAvgMの性能が劣化する傾向があることが判明し、局所計算と通信効率のトレードオフがあることが示された。
メンバーインフィアレンスアタック（MIA）の結果、中央サーバーが存在しないため、モデルの逆引きやデータ漏洩のリスクが低く、DFedAvgMはFedAvgよりもデータプライバシーをより効果的に保護している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。