[论文解读] FedCM: Federated Learning with Client-level Momentum
FedCM 是一种新型联邦学习算法,通过聚合前几轮的全局梯度信息,在客户端层面引入动量机制,以稳定训练过程并减少客户端漂移。该方法在部分参与和客户端异构性条件下,提升了收敛性与鲁棒性,在 CIFAR-10 和 CIFAR-100 基准测试中,针对不同参与率和数据非独立同分布(non-iid)水平,其准确率和稳定性均优于 FedAvg 及其他基线方法。
Federated Learning is a distributed machine learning approach which enables model training without data sharing. In this paper, we propose a new federated learning algorithm, Federated Averaging with Client-level Momentum (FedCM), to tackle problems of partial participation and client heterogeneity in real-world federated learning applications. FedCM aggregates global gradient information in previous communication rounds and modifies client gradient descent with a momentum-like term, which can effectively correct the bias and improve the stability of local SGD. We provide theoretical analysis to highlight the benefits of FedCM. We also perform extensive empirical studies and demonstrate that FedCM achieves superior performance in various tasks and is robust to different levels of client numbers, participation rate and client heterogeneity.
研究动机与目标
- 解决跨设备联邦学习中客户端异构性和部分参与带来的挑战,即每轮仅有少量客户端参与。
- 减少因数据非独立同分布(non-iid)分布和联邦 SGD 中不稳定的本地更新所导致的客户端漂移。
- 在不需客户端在通信轮次间存储或维护本地状态的前提下,提升收敛速度与模型性能。
- 设计一种基于动量的方法,利用全局梯度历史指导本地客户端更新,增强模型的鲁棒性与稳定性。
- 通过最小化客户端侧存储与通信开销,确保与真实世界联邦学习系统的兼容性。
提出的方法
- 引入一种客户端级动量项,累积前序通信轮次中的全局梯度信息。
- 通过将本地梯度与服务器端维护的动量向量相结合,来修改本地 SGD 更新,该动量向量反映历史全局梯度。
- 采用动量更新规则,即服务器在各轮次中维护全局梯度的运行平均值,并用于校正客户端更新。
- 将动量机制直接集成到 FedAvg 框架中,用动量增强的本地下降步骤替代标准客户端更新。
- 确保动量项通过每轮的全局模型梯度进行更新,使客户端能够将其本地更新与全局优化方向对齐。
- 设计算法使得客户端无需在轮次间存储或维护状态,从而降低内存开销并提升可扩展性。
实验结果
研究问题
- RQ1基于历史全局梯度的动量机制是否能在客户端部分参与条件下,提升联邦学习的收敛性与稳定性?
- RQ2与服务器级或仅客户端级动量相比,客户端级动量在缓解由数据异构性引起的客户端漂移方面表现如何?
- RQ3当参与率显著下降时(如每轮仅 2% 或 10% 的客户端参与),FedCM 是否仍能保持高性能?
- RQ4与自适应方法(如 FedAdam)相比,FedCM 在多大程度上减少了训练曲线中的振荡与不稳定性?
- RQ5在非独立同分布(non-iid)和低参与度设置下,超参数选择(如动量系数)对收敛性和最终准确率的影响如何?
主要发现
- 在各种非独立同分布(non-iid)和低参与度设置下,FedCM 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率均显著优于 FedAvg、FedAdam 和 FedDyn。
- 在 500 台设备、2% 参与率的设置下,FedCM 相较于基线方法展现出显著更大的性能差距,表明其对低参与率具有强鲁棒性。
- FedCM 的收敛曲线比 FedAdam 更为稳定,振荡更少,尤其在高数据异构性条件下(Dirichlet α=0.6)表现突出。
- FedCM 在无需客户端在轮次间存储或更新本地状态的情况下仍能保持高性能,而类似 FedCM 或 FedDyn 等方法依赖控制变量,需维护本地状态。
- 该算法在强凸、一般凸和非凸函数上的收敛速率达到了目前已知的最佳理论边界。
- 超参数调优表明,FedCM 中 α=0.05 或 0.1 的设置在不同设备数量和参与率下均能带来一致的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。