[论文解读] Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees
简述:提出带有两种压缩器(sto-sign 和 dp-sign)的随机符号 SGD,在数据异质性下实现收敛,同时在联邦学习中具备 Byzantine 鲁棒性和差分隐私,并给出带误差反馈的变体,以及在 MNIST/CIFAR-10 上的实验。
Federated learning (FL) has emerged as a prominent distributed learning paradigm. FL entails some pressing needs for developing novel parameter estimation approaches with theoretical guarantees of convergence, which are also communication efficient, differentially private and Byzantine resilient in the heterogeneous data distribution settings. Quantization-based SGD solvers have been widely adopted in FL and the recently proposed SIGNSGD with majority vote shows a promising direction. However, no existing methods enjoy all the aforementioned properties. In this paper, we propose an intuitively-simple yet theoretically-sound method based on SIGNSGD to bridge the gap. We present Stochastic-Sign SGD which utilizes novel stochastic-sign based gradient compressors enabling the aforementioned properties in a unified framework. We also present an error-feedback variant of the proposed Stochastic-Sign SGD which further improves the learning performance in FL. We test the proposed method with extensive experiments using deep neural networks on the MNIST dataset and the CIFAR-10 dataset. The experimental results corroborate the effectiveness of the proposed method.
研究动机与目标
- 激励联邦学习面临的挑战:通信效率、数据异质性、隐私,以及 Byzantine 故障。
- 引入基于随机符号的梯度压缩器,以在异质数据分布下确保收敛。
- 通过差分私有压缩器提供隐私保证,并结合误差反馈分析收敛性。
- 量化 Byzantine 鲁棒性并提出改进(加权投票、Top-k 稀疏化)以提高鲁棒性。
- 使用神经网络在 MNIST 与 CIFAR-10 上的实验验证该方法。
提出的方法
- 将 sto-sign 定义为一种两级随机量化,传输量化梯度结果的符号。
- 将 dp-sign 定义为 sto-sign 的差分隐私版本,以实现 (epsilon, delta)-DP。
- 提出 DP-SIGN SGD 和 Sto-SIGN SGD,并给出在异质数据分布下的收敛分析。
- 引入误差反馈机制,以补偿多数投票引起的错误,并证明该变体的收敛性。
- 建立 Byzantine 鲁棒性界限,讨论基于信誉的加权与鲁棒性增强。
- 扩展框架以应对攻击者的鲁棒性并分析在数据异质性下的性能。
实验结果
研究问题
- RQ1当不同工作节点的数据异质分布时,基于符号的梯度方法如何收敛?
- RQ2哪些随机梯度压缩方案能够确保收敛并维持联邦学习的通信效率?
- RQ3如何在不损害性能的前提下,将差分隐私集成到基于符号的梯度压缩中?
- RQ4Stochastic-Sign SGD 的 Byzantine 鲁棒性水平如何,如何进一步提升?
主要发现
- 在数据异质性下,Sto-SIGN SGD 收敛到局部最优的一个邻域,且当工作节点数量 M 增大时差距减小。
- 可以使用随机压缩器对平均错符号概率进行界定,从而在 SIGN SGD 失败的情形下实现收敛。
- DP-SIGN SGD 在保持通信效率和准确性的同时提供差分隐私保证。
- 带误差反馈的随机符号 SGD 进一步在理论上证明收敛并提升学习性能。
- 本文推导了依赖于数据异质性的 Byzantin 鲁棒性界限,并提出加权投票等变体以提高鲁棒性。
- 在 MNIST 和 CIFAR-10 上的深度网络实验结果验证了在通信约束下的有效性和鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。