[论文解读] FedBCD:Communication-Efficient Accelerated Block Coordinate Gradient Descent for Federated Learning
该论文提出 FedBCGD,一种在联邦学习中用于分块坐标梯度下降的方法,通过仅上传选定的参数块来降低通信;以及在此基础上加入客户端漂移控制和方差消减以实现更快收敛的 FedBCGD+。
Although Federated Learning has been widely studied in recent years, there are still high overhead expenses in each communication round for large-scale models such as Vision Transformer. To lower the communication complexity, we propose a novel Federated Block Coordinate Gradient Descent (FedBCGD) method for communication efficiency. The proposed method splits model parameters into several blocks, including a shared block and enables uploading a specific parameter block by each client, which can significantly reduce communication overhead. Moreover, we also develop an accelerated FedBCGD algorithm (called FedBCGD+) with client drift control and stochastic variance reduction. To the best of our knowledge, this paper is the first work on parameter block communication for training large-scale deep models. We also provide the convergence analysis for the proposed algorithms. Our theoretical results show that the communication complexities of our algorithms are a factor $1/N$ lower than those of existing methods, where $N$ is the number of parameter blocks, and they enjoy much faster convergence than their counterparts. Empirical results indicate the superiority of the proposed algorithms compared to state-of-the-art algorithms. The code is available at https://github.com/junkangLiu0/FedBCGD.
研究动机与目标
- 通过将模型参数分成块并仅上传选定的块来降低大规模模型的联邦学习通信开销。
- 通过服务器上的动量和块级聚合实现更快的收敛。
- 解决参数块漂移和数据异质性以提高稳定性和准确性。
- 对收敛性和通信复杂度给出理论保证。
- 在 CIFAR 和 ImageNet 规模模型上对标 state-of-the-art 的 FL 基线进行经验验证。
提出的方法
- 将模型参数分成 N+1 个块:N 个参数块再加一个共享块。
- 每个客户端在本地更新所有参数,但仅上传两个块(一个特定参数块和共享块)。
- 服务器对更新后的块进行平均/聚合,并对参数块和共享块应用动量。
- FedBCGD 在服务器端引入块级动量,以在传输过程中弥补缺失的参数。
- FedBCGD+ 在 FedBCGD 基础上扩展了客户端漂移控制变换量和 SVRG 风格的方差消减,以缓解客户端异质性和梯度噪声。
- 理论分析将通信复杂度推导为与块数 N、数据异质性 G、梯度噪声 σ、参与度 S 的函数。

实验结果
研究问题
- RQ1在用分块参数更新来训练大规模模型时,如何降低通信开销?
- RQ2带动量和部分上传的分块坐标方法是否能在 FL 中实现与全模型更新相当的收敛速度?
- RQ3在非 IID 数据和随机梯度下,引入漂移控制和方差减小(FedBCGD+)是否能改善收敛性?
- RQ4在强凸和非凸设定下,FedBCGD 与 FedBCGD+ 的理论通信复杂度保障是什么?
- RQ5在标准 FL 基准(如 CIFAR-10/100、Tiny ImageNet、EMNIST)及多种模型架构下,FedBCGD 与 FedBCGD+ 的经验表现如何?
主要发现
- FedBCGD 通过仅更新和上传块参数再加一个共享块,显著降低每轮通信。
- FedBCGD+ 通过增加客户端漂移控制变换量和 SVRG 风格的方差减小进一步加速收敛。
- 在 CIFAR-100 实验中,FedBCGD 在达到 40% 准确率时比基线快 7.3 倍(77d vs 558d,LeNet-5 在 CIFAR-100 上)。
- FedBCGD+ 在 ResNet-18 上达到 54% 的准确率,且速度提升 1.8 倍(277d vs 154d,CIFAR-100)。
- 在 CIFAR-10/CIFAR-100 上的多种架构中,FedBCGD/FedBCGD+ 在收敛速度和对异质数据的鲁棒性方面优于 FedAvg 及若干基线(ρ=0.6)。
- 理论结果显示 FedBCGD 和 FedBCGD+ 的通信复杂度低于若干基线,且 FedBCGD+ 在非凸场景下提供更强的保障,且在通信成本上有 1/N 的提升。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。