[论文解读] Federated Learning: Strategies for Improving Communication Efficiency
本文提出了两类面向联邦学习的通信高效更新:结构化更新(低秩或随机掩码)和草绘更新(通过子采样、量化和随机旋转进行压缩),在CIFAR-10和Reddit数据集的实验中,展现出多达100x–1000x的上行带宽削减,收敛损失很小。
Federated Learning is a machine learning setting where the goal is to train a high-quality centralized model while training data remains distributed over a large number of clients each with unreliable and relatively slow network connections. We consider learning algorithms for this setting where on each round, each client independently computes an update to the current model based on its local data, and communicates this update to a central server, where the client-side updates are aggregated to compute a new global model. The typical clients in this setting are mobile phones, and communication efficiency is of the utmost importance. In this paper, we propose two ways to reduce the uplink communication costs: structured updates, where we directly learn an update from a restricted space parametrized using a smaller number of variables, e.g. either low-rank or a random mask; and sketched updates, where we learn a full model update and then compress it using a combination of quantization, random rotations, and subsampling before sending it to the server. Experiments on both convolutional and recurrent networks show that the proposed methods can reduce the communication cost by two orders of magnitude.
研究动机与目标
- 在设备众多且上行带宽有限的环境中激励联邦学习。
- 开发在不牺牲模型质量的前提下减少上行数据的方法。
- 在深度网络和序列模型上评估结构化和草绘更新,以量化通信节省和收敛影响。
提出的方法
- 结构化更新将客户端更新限制在更小的参数空间(例如低秩或随机掩码)。
- 低秩更新将更新 H_t 因式分解为 A_t B_t,其中 A 是随机的,B 学得;通过传输 B 来降低通信量(A 的种子保留)。
- 随机掩码更新使用稀疏且随机生成的模式来将参数置零,只发送非零项。
- 草绘更新在设备上计算完整更新,然后通过子采样、概率量化和可选的随机旋转进行压缩。
- 随机旋转(基于 Walsh-Hadamard)在量化前进行,以减少误差并提高压缩效果。
- 这些方法可以组合使用(例如先进行结构化更新再进行草绘),但在本工作中未共同探索。
实验结果
研究问题
- RQ1结构化更新(低秩、随机掩码)在联邦学习中对收敛性和通信成本有何影响?
- RQ2草绘更新(子采样、量化、旋转)在减少上行带宽的同时保持准确性有多有效?
- RQ3用结构化随机旋转进行预处理是否能改善量化/草绘更新的性能?
- RQ4在 CIFAR-10 和 Reddit 下一词预测任务中,通信减少与模型性能之间存在的权衡如何?
主要发现
- 随机掩码更新在降低更新大小方面优于低秩更新,且对收敛没有严重影响。
- 草绘更新在结合随机旋转和量化时可以实现显著的通信减少;一个显著例子是在通信位数减少高达 256x 的情况下,收敛影响较小。
- 在量化前使用结构化随机旋转可提高鲁棒性和准确性,尤其是在低比特量化情况下。
- 在 CIFAR-10 使用全卷积网络时,这些技术的组合使达到接近原始准确度,同时传输的数据量远小于完整更新。
- 在 Reddit 数据上,草绘更新使训练一个 1.35M 参数的 LSTM,每轮通信量降低,展示在用户分区的现实联邦设置中的可行性。
- 结果表明,只要每轮参与的客户端足够多,即使进行激进的更新子采样(例如 1% 的元素)也能保持有竞争力的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。