Skip to main content
QUICK REVIEW

[论文解读] Error Compensated Quantized SGD and its Applications to Large-scale Distributed Optimization

Jiaxiang Wu, Weidong Huang|arXiv (Cornell University)|Jun 20, 2018
Distributed and Parallel Computing Systems被引用 111
一句话总结

ECQ-SGD 将累积误差反馈引入到数据并行分布式优化中的量化梯度,实现显著的梯度压缩且不损失性能,并且比先前的量化 SGD 方法更快收敛。

ABSTRACT

Large-scale distributed optimization is of great importance in various applications. For data-parallel based distributed learning, the inter-node gradient communication often becomes the performance bottleneck. In this paper, we propose the error compensated quantized stochastic gradient descent algorithm to improve the training efficiency. Local gradients are quantized to reduce the communication overhead, and accumulated quantization error is utilized to speed up the convergence. Furthermore, we present theoretical analysis on the convergence behaviour, and demonstrate its advantage over competitors. Extensive experiments indicate that our algorithm can compress gradients by a factor of up to two magnitudes without performance degradation.

研究动机与目标

  • 阐明在数据并行分布式优化中降低节点间通信的需求。
  • 提出使用累积量化误差进行补偿的 ECQ-SGD。
  • 给出将 ECQ-SGD 与 QSGD 比较的理论收敛性分析。
  • 在线性模型和卷积神经网络(CNN)上进行经验验证,展示在不损失性能的情况下的压缩。

提出的方法

  • 定义一个具有有限码本的无偏随机量化函数 Q,并展示梯度是如何被量化的。
  • 引入每个节点的累积量化误差 h_p^(t),并使用系数 alpha 进行补偿的步骤。
  • 对经补偿的梯度进行量化 tilde{g}_p^(t) = Q(g_p^(t) + alpha h_p^(t)).
  • 更新累积误差 h_p^(t+1) = beta h_p^(t) + (g_p^(t) - tilde{g}_p^(t)).
  • 执行分布式更新 w^{(t+1)} = w^{(t)} - eta * (1/P) sum_p tilde{g}_p^(t).
  • 给出对二次目标函数的收敛性分析,展示 ECQ-SGD 如何抑制量化误差对误差界的贡献,相较于 QSGD。

实验结果

研究问题

  • RQ1在使用量化梯度的同时,ECQ-SGD 是否能达到与全精度 SGD 相当的收敛性?
  • RQ2累积误差补偿是否比以往的量化 SGD 方法(如 QSGD、1Bit-SGD)在收掮信速度和稳定性方面有改善?
  • RQ3超参数 alpha 和 beta 在实际中如何影响收敛性与稳定性?
  • RQ4ECQ-SGD 对大规模 GPU 集群中的通信成本与可扩展性有何影响?

主要发现

  • ECQ-SGD 在不降低性能的前提下,梯度压缩可达到高达两个数量级的压缩。
  • 累积误差补偿抑制了量化误差对误差上界的贡献,从而比基线方法获得更快且更稳定的收敛。
  • 对于线性模型,ECQ-SGD 在损失值方面的收敛更快,且在多个合成数据集上比 QSGD 更接近最优解。
  • 在 CIFAR-10 的 ResNet-20 实验中,ECQ-SGD 实现了显著的通信量降低,同时精度可比。
  • 性能建模和可扩展性实验在大型 GPU 集群上展示了显著的加速;例如,512 GPU 相对于基础的 SGD 获得了显著的吞吐提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。