[论文解读] Faster On-Device Training Using New Federated Momentum Algorithm
该论文证明了 FedAvg 在非凸问题上的收敛性,并提出 FedMom,一种带有收敛保证的加速联邦学习动量方法,在仿真中显示更快的收敛。
Mobile crowdsensing has gained significant attention in recent years and has become a critical paradigm for emerging Internet of Things applications. The sensing devices continuously generate a significant quantity of data, which provide tremendous opportunities to develop innovative intelligent applications. To utilize these data to train machine learning models while not compromising user privacy, federated learning has become a promising solution. However, there is little understanding of whether federated learning algorithms are guaranteed to converge. We reconsider model averaging in federated learning and formulate it as a gradient-based method with biased gradients. This novel perspective assists analysis of its convergence rate and provides a new direction for more acceleration. We prove for the first time that the federated averaging algorithm is guaranteed to converge for non-convex problems, without imposing additional assumptions. We further propose a novel accelerated federated learning algorithm and provide a convergence guarantee. Simulated federated learning experiments are conducted to train deep neural networks on benchmark datasets, and experimental results show that our proposed method converges faster than previous approaches.
研究动机与目标
- 在具有隐私保护的分布数据上,动机化联邦学习用于设备端训练。
- 为 FedAvg 在非凸问题上的收敛性分析,且不使用严格的数据分布假设。
- 提出并分析一种在服务端使用动量的加速联邦优化方法(FedMom)并进行分析。
- 通过带有神经网络的仿真实验展示所提方法的更快收敛。
提出的方法
- 将 FedAvg 的模型平均 reformulate 成带有偏置梯度的梯度更新。
- 在标准假设(有界方差和梯度 Lipschitz)下证明 FedAvg 在非凸问题上的收敛性。
- 推导一个带有收敛保证的加速联邦动量算法(FedMom),在服务端使用 Nesterov 风格的动量。
- 定义并分析 FedMom 的更新,其中 v_{t+1} = w_t - eta * sum_{k in S_t} (n_k/n) (w_t - w_{t+1}^k) 且 w_{t+1} = v_{t+1} + beta (v_{t+1} - v_t})。
- 给出对梯度范数的理论界限,并指明收敛所需的学习率和动量条件。
实验结果
研究问题
- RQ1FedAvg 在没有严格数据分布假设的情况下是否对非凸目标函数收敛?
- RQ2联邦动量(FedMom)方法是否能在保持对非凸问题的收敛性保障的前提下,加速联邦优化的收敛?
- RQ3在联邦设置中,达到收敛到临界点所需的步长、局部更新次数和动量的必要条件是什么?
- RQ4联邦梯度中的偏差如何影响收敛,加速是否可缓解?
主要发现
- 在有界方差和 Lipschitz 梯度假设下,FedAvg 能收敛到非凸问题的临界点。
- 提出并证明在服务器端带有动量的新型加速联邦学习算法(FedMom)在非凸问题上也能收敛到临界点。
- 理论界限显示,在给定的步长和动量参数下,收敛到临界点的速率,并给出参数选择的指导。
- 在相同设置下对深度神经网络进行的仿真联邦训练表明,与以往方法相比,所提方法收敛更快。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。