Skip to main content
QUICK REVIEW

[论文解读] Decentralized Federated Averaging

Tong Sun, Dongsheng Li|arXiv (Cornell University)|Apr 23, 2021
Stochastic Gradient Optimization Techniques被引用 23
一句话总结

本文提出去中心化联邦平均动量算法(DFedAvgM),一种通信高效、隐私保护的集中式 FedAvg 替代方案。该方法通过无向图上的对等客户端通信替代中心化服务器,将动量和量化技术整合其中,以降低通信成本,同时在非凸和 Polyak-Łojasiewicz(PŁ)条件下证明了收敛性。实验结果表明,DFedAvgM 的性能与 FedAvg 相当,但通信开销显著降低,隐私保护能力更强。

ABSTRACT

Federated averaging (FedAvg) is a communication efficient algorithm for the distributed training with an enormous number of clients. In FedAvg, clients keep their data locally for privacy protection; a central parameter server is used to communicate between clients. This central server distributes the parameters to each client and collects the updated parameters from clients. FedAvg is mostly studied in centralized fashions, which requires massive communication between server and clients in each communication. Moreover, attacking the central server can break the whole system's privacy. In this paper, we study the decentralized FedAvg with momentum (DFedAvgM), which is implemented on clients that are connected by an undirected graph. In DFedAvgM, all clients perform stochastic gradient descent with momentum and communicate with their neighbors only. To further reduce the communication cost, we also consider the quantized DFedAvgM. We prove convergence of the (quantized) DFedAvgM under trivial assumptions; the convergence rate can be improved when the loss function satisfies the PŁ property. Finally, we numerically verify the efficacy of DFedAvgM.

研究动机与目标

  • 为解决集中式联邦平均(FedAvg)中的通信瓶颈和隐私风险,其中中心化服务器协调所有客户端更新。
  • 消除对中心化服务器的依赖,该服务器在 FedAvg 中是单点故障和隐私漏洞。
  • 开发一种去中心化替代方案,在保持训练效率的同时减少客户端之间的通信成本。
  • 将动量和量化技术整合到去中心化联邦学习中,以提升收敛性并减少带宽使用。
  • 在一般非凸和 PŁ 条件下,理论建立 DFedAvgM 的收敛性保证,并在深度神经网络上实证验证其性能。

提出的方法

  • 提出 DFedAvgM,一种去中心化 FedAvg 变体,其中客户端通过无向图连接,并使用动量进行本地 SGD。
  • 每个客户端使用自身数据执行多次本地更新,仅与邻居通信,无需中心化参数服务器。
  • 引入 DFedAvgM 的量化版本,客户端交换压缩(量化)的模型参数,以进一步降低通信成本。
  • 理论分析表明,在标准非凸假设下,DFedAvgM 的收敛速率与去中心化 SGD(DSGD)相当。
  • 在 Polyak-Łojasiewicz(PŁ)条件下,DFedAvgM 的收敛速率快于一般情况,表明在特定损失曲面下优化效率更高。
  • 推导出降低通信成本的充分条件,该条件与图结构和本地训练动态相关。

实验结果

研究问题

  • RQ1去中心化联邦学习结合动量能否在降低通信成本并提升隐私保护的同时,实现与 FedAvg 相当的收敛性能?
  • RQ2在去中心化联邦学习中集成量化技术是否能在最小化带宽使用的同时保持模型性能和收敛性?
  • RQ3在非凸和 PŁ 条件下,去中心化 FedAvg 结合动量的理论收敛行为如何?
  • RQ4连接客户端的图结构如何影响 DFedAvgM 的收敛速率?
  • RQ5DFedAvgM 在 IID 和 Non-IID 数据设置下是否能保持鲁棒性和效率?

主要发现

  • 在一般非凸假设下,DFedAvgM 的收敛速率与去中心化 SGD(DSGD)相当,性能无下降。
  • 在 PŁ 条件下,DFedAvgM 展现出更快的次线性收敛速率,表明在特定损失曲面下优化效率更高。
  • DFedAvgM 的量化版本保持了强劲性能,即使在低比特精度(如 16 位)下也仅有极小的准确率下降,证明了通信压缩的有效性。
  • 实验结果表明,DFedAvgM 在测试准确率和损失方面与 FedAvg 相当,但在通信轮次中传输的比特数显著减少。
  • 增加本地训练轮次超过一轮通常会降低 DFedAvgM 的性能,尤其是在量化条件下,表明本地计算与通信效率之间存在权衡。
  • 成员推理攻击(MIA)结果表明,与 FedAvg 相比,DFedAvgM 更好地保护了数据隐私,因为缺乏中心化服务器降低了模型反演和数据泄露的风险。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。