Skip to main content
QUICK REVIEW

[论文解读] Personalized Federated Learning with Moreau Envelopes

Canh T. Dinh, Nguyen H. Tran|arXiv (Cornell University)|Jun 16, 2020
Privacy-Preserving Technologies in Data参考文献 56被引用 214
一句话总结

引入 pFedMe,一种使用 Moreau 包络来将个性化模型优化与全局模型学习解耦的个性化联邦学习算法,在收敛速率方面达到最先进水平并在本地准确性上优于 FedAvg 和 Per-FedAvg。

ABSTRACT

Federated learning (FL) is a decentralized and privacy-preserving machine learning technique in which a group of clients collaborate with a server to learn a global model without sharing clients' data. One challenge associated with FL is statistical diversity among clients, which restricts the global model from delivering good performance on each client's task. To address this, we propose an algorithm for personalized FL (pFedMe) using Moreau envelopes as clients' regularized loss functions, which help decouple personalized model optimization from the global model learning in a bi-level problem stylized for personalized FL. Theoretically, we show that pFedMe's convergence rate is state-of-the-art: achieving quadratic speedup for strongly convex and sublinear speedup of order 2/3 for smooth nonconvex objectives. Experimentally, we verify that pFedMe excels at empirical performance compared with the vanilla FedAvg and Per-FedAvg, a meta-learning based personalized FL algorithm.

研究动机与目标

  • 通过实现个性化来解决联邦学习中客户端间的非独立同分布数据问题。
  • 使用 Moreau 包络来建立双层优化问题,以分离全局模型更新与个性化模型更新。
  • 证明强凸与非凸目标下的收敛性速率。
  • 在真实和合成数据集上对 pFedMe 与 FedAvg 和 Per-FedAvg 进行实证验证。

提出的方法

  • 将 F(w)=1/N ∑ Fi(w) 与 Fi(w)=min_thetai { fi(theta_i) + (lambda/2) ||theta_i - w||^2 } 表述成双层优化问题。
  • 使用 Moreau 包络推导近端式的个性化更新以及用于全局模型的梯度外更新。
  • 在每一轮中,进行 R 次本地步骤以通过 δ-近似 tilde_theta_i 优化 theta_i(w),然后通过对 Fi 关于 w 的梯度更新 w。
  • 给出在强凸和光滑非凸设置下的收敛性分析,在各自假设下分别获得二次加速与 2/3 次子线性加速。
  • 在 MNIST 与合成数据上将 pFedMe 与 FedAvg 与 Per-FedAvg 进行比较,考察超参数 R、K、|D|、lambda 与 beta。

实验结果

研究问题

  • RQ1如何利用 Moreau 包络将个性化模型优化与全局模型学习在 FL 中解耦?
  • RQ2在强凸与非凸目标下,pFedMe 能达到哪些收敛速率?
  • RQ3在非独立同分布设置下,pFedMe 是否在本地(个性化)性能和/或收敛速度方面优于 FedAvg 与 Per-FedAvg?
  • RQ4超参数(R、K、|D|、lambda、beta)如何影响性能与收敛?

主要发现

算法模型MNIST 准确率Synthetic 准确率
FedAvgMLR93.96±0.0277.62±0.11
Per-FedAvgMLR94.37±0.0481.49±0.09
pFedMe-GMMLR94.18±0.0678.65±0.25
pFedMe-PMMLR95.62±0.0483.20±0.06
FedAvgDNN98.79±0.0383.64±0.22
Per-FedAvgDNN98.90±0.0285.01±0.10
pFedMe-GMDNN99.16±0.0384.17±0.35
pFedMe-PMDNN99.46±0.0186.36±0.15
  • pFedMe 取得了最先进的收敛速度:对强凸对象实现二次加速,对光滑非凸目标实现 2/3 的次线性加速。
  • 在实证方面,pFedMe 的个性化模型在本地准确性和收敛速度上超越 FedAvg 与 Per-FedAvg,适用于 MNIST 与合成数据。
  • 基于 Moreau 包络的公式有效地将个性化优化与全局学习解耦,从而实现并行化更新。
  • 内点最小化的 δ-近似和一阶梯度足以,避免了像其他元学习方法那样的高阶矩阵求解。
  • 超参数调优表明较大的 R 可以提高收敛性但会增加计算成本;适当的 lambda 可以在个性化和全局对齐之间取得平衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。