Skip to main content
QUICK REVIEW

[论文解读] Hyper-Sphere Quantization: Communication-Efficient SGD for Federated Learning

Xinyan Dai, Yan Xiao|arXiv (Cornell University)|Nov 12, 2019
Privacy-Preserving Technologies in Data参考文献 36被引用 32
一句话总结

超球面量化(HSQ)是一种用于联邦学习的通信高效梯度压缩框架,通过在超球面上使用共享码书对整个梯度向量进行量化,实现了每轮迭代通信成本为 O(log d),同时确保收敛性。与 QSGD 等先前方法相比,HSQ 显著降低了带宽使用量,且精度损失极小,并具备强大的理论保证。

ABSTRACT

The high cost of communicating gradients is a major bottleneck for federated learning, as the bandwidth of the participating user devices is limited. Existing gradient compression algorithms are mainly designed for data centers with high-speed network and achieve $O(\sqrt{d} \log d)$ per-iteration communication cost at best, where $d$ is the size of the model. We propose hyper-sphere quantization (HSQ), a general framework that can be configured to achieve a continuum of trade-offs between communication efficiency and gradient accuracy. In particular, at the high compression ratio end, HSQ provides a low per-iteration communication cost of $O(\log d)$, which is favorable for federated learning. We prove the convergence of HSQ theoretically and show by experiments that HSQ significantly reduces the communication cost of model training without hurting convergence accuracy.

研究动机与目标

  • 为解决联邦学习中用户设备带宽受限时梯度传输带来的高通信成本问题。
  • 设计一种梯度压缩方法,其每轮迭代通信成本低于现有方法(如 QSGD),尤其适用于带宽受限的环境。
  • 提供一个理论基础扎实的框架,通过可配置的权衡实现通信效率与梯度精度的平衡。
  • 通过降低客户端设备的通信阈值,促进更广泛的联邦学习参与。

提出的方法

  • HSQ 通过从单位超球面上预先计算的共享码书选择码字,对整个梯度向量进行整体量化。
  • 基于梯度与码字之间夹角的概率选择机制,最小化量化误差。
  • 仅传输所选码字的索引,将每轮迭代的通信成本降低至 O(log d) 位。
  • 该方法支持两种变体:贪婪-HSQ(有偏但方差较低)和无偏-HSQ(无偏但方差较高),从而实现性能上的权衡。
  • 码字通过正交基、随机旋转、高斯分布或 K-均值聚类生成,以优化量化精度。
  • 该框架在理论上被证明对光滑凸函数和非凸函数优化问题均能收敛。

实验结果

研究问题

  • RQ1我们能否在确保联邦学习收敛的前提下,实现低于 O(√d log d) 的每轮迭代通信成本,该值是现有方法中最佳已知结果?
  • RQ2当压缩程度极高(例如 O(log d) 成本)时,通信效率与梯度精度之间的权衡是什么?
  • RQ3与逐元素或稀疏量化相比,对整个梯度向量进行向量量化在收敛性和通信成本方面表现如何?
  • RQ4在超球面上采用基于概率的码字方法是否能维持足够的梯度保真度以实现有效的模型训练?

主要发现

  • HSQ 实现了每轮迭代通信成本为 O(log d),显著低于 QSGD 的 O(√d log d),因此在带宽受限的联邦学习中极具适用性。
  • 当 d = 64 时,HSQ 的压缩比率显著高于基线方法,且收敛精度损失极小。
  • 实际中,贪婪-HSQ 表现优于无偏-HSQ,表明降低方差可显著提升训练稳定性,即使存在偏差。
  • 使用 4、6 或 32 位进行伪范数量化时性能相近,但 2 位会导致最终测试精度下降。
  • 在数据中心训练中,HSQ 将每轮训练时间减少 14.4%,且测试精度下降不足 0.5%。
  • 该框架在理论上保持了对光滑凸函数和非凸函数的收敛性保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。