Skip to main content
QUICK REVIEW

[论文解读] Federated Learning of a Mixture of Global and Local Models

Filip Hanzely, Peter Richtárik|arXiv (Cornell University)|Feb 10, 2020
Privacy-Preserving Technologies in Data参考文献 47被引用 242
一句话总结

本文提出一种新的联邦学习(FL)形式,将全局模型与完全本地模型通过惩罚项混合,并开发了 Loopless Local Gradient Descent 变体,具有收敛保证,表明在异质数据环境中本地步数可以降低通信量并实现个性化。

ABSTRACT

We propose a new optimization formulation for training federated learning models. The standard formulation has the form of an empirical risk minimization problem constructed to find a single global model trained from the private data stored across all participating devices. In contrast, our formulation seeks an explicit trade-off between this traditional global model and the local models, which can be learned by each device from its own private data without any communication. Further, we develop several efficient variants of SGD (with and without partial participation and with and without variance reduction) for solving the new formulation and prove communication complexity guarantees. Notably, our methods are similar but not identical to federated averaging / local SGD, thus shedding some light on the role of local steps in federated learning. In particular, we are the first to i) show that local steps can improve communication for problems with heterogeneous data, and ii) point out that personalization yields reduced communication complexity.

研究动机与目标

  • 从异质边缘数据中隐私保护学习的动机,而不汇聚原始数据。
  • 提出一种混合 FL 目标,学习个性化本地模型,同时保持接近全局共识。
  • 分析最优解的理论性质,以及个性化如何影响通信。
  • 开发基于高效 SGD 的算法(L2GD、L2SGD+)并具有收敛保证和通信复杂度界定。

提出的方法

  • 引入一个新的 FL 目标,优化局部模型 x1,...,xn,带有衡量偏离均值的惩罚项 ψ(x) ,形成 F(x)=f(x)+λψ(x)。
  • 证明 f(x) 是局部损失 fi(xi) 的平均值,ψ(x) 编码局部模型的离散程度;推导梯度和光滑性/强凸性性质。
  • 推出理论结果,将 λ 与局部解和全局解的接近性联系起来,包括 ψ(x(λ)) 对 λ 非增、f(x(λ)) 对 λ 非降。
  • 提出 Loopless Local Gradient Descent (L2GD),一种非均匀 SGD,交替进行局部 GD 步与带有概率机制的平均步,以控制通信轮次。
  • 扩展到方差减少的本地 SGD(L2SGD+)以实现线性收敛和更好的通信性能;讨论部分参与和局部子采样的推广。

实验结果

研究问题

  • RQ1在具有异质数据的 FL 中,混合全局/本地模型目标是否能在控制通信的同时改善个性化?
  • RQ2惩罚参数 λ 如何影响向全球解与本地解的收敛及相关的通信复杂度?
  • RQ3Loopless Local GD(L2GD)及其方差减少变体的收敛保证和最优通信轮次是什么?
  • RQ4部分参与、本地 SGD 与方差约简在异质性下是否能提升 FL 的性能?
  • RQ5本地步与 FL 中个性化模型的 MAML 式结构有何关系?

主要发现

  • 一种新的混合 FL 形式产生唯一解 x(λ),从纯本地模型(λ→0)过渡到全局模型(λ→∞)。
  • 最优的本地模型满足 x_i(λ)=x̄(λ)−(1/λ)∇f_i(x_i(λ)) 且 ∑i ∇f_i(x_i(λ))=0,关联到类似 MAML 的更新。
  • L2GD 在经过调优的抽样概率 p* 下对到 x(λ) 的期望距离给出界,得到一个有限的通信轮次期望值,在 SGD 与 GD 之间插值。
  • 推论:当 p*=λ/(L+λ) 时,期望通信量的尺度为 (2λ/(λ+L))*(L/μ) log(1/ε),当 λ→0 时趋近于零,当 λ→∞ 时与 GD 的速率相匹配。
  • L2SGD+(方差减少)达到线性收敛和改进的通信复杂度,具有依赖于问题参数的显式迭代和通信界。
  • 在具有异质/局部数据划分的逻辑回归上的经验结果印证理论主张,并展示方差减少和个性化在 FL 中的好处。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。