Skip to main content
QUICK REVIEW

[论文解读] Adaptive Gradient Quantization for Data-Parallel SGD

Fartash Faghri, Iman Tabrizian|arXiv (Cornell University)|Oct 23, 2020
Advanced Neural Network Applications参考文献 32被引用 29
一句话总结

本文提出了自适应层级量化(ALQ)和自适应乘数量化(AMQ)两种自适应梯度量化方法,用于数据并行SGD,能够根据训练过程中梯度统计特性的动态变化,自适应地调整量化级别。在低带宽条件下,该方法在CIFAR-10上将验证准确率提升了近2%,在ImageNet上提升了1%,且相比固定量化方案,对超参数的选择具有显著更强的鲁棒性。

ABSTRACT

Many communication-efficient variants of SGD use gradient quantization schemes. These schemes are often heuristic and fixed over the course of training. We empirically observe that the statistics of gradients of deep models change during the training. Motivated by this observation, we introduce two adaptive quantization schemes, ALQ and AMQ. In both schemes, processors update their compression schemes in parallel by efficiently computing sufficient statistics of a parametric distribution. We improve the validation accuracy by almost 2% on CIFAR-10 and 1% on ImageNet in challenging low-cost communication setups. Our adaptive methods are also significantly more robust to the choice of hyperparameters.

研究动机与目标

  • 为解决固定量化方案在数据并行SGD中的局限性,此类方案无法随训练过程中梯度统计特性的变化而自适应调整。
  • 在不牺牲模型准确率的前提下,降低分布式深度学习中的通信开销。
  • 开发自适应量化方法,通过利用梯度分布的充分统计量,在多个工作节点上并行更新压缩方案。
  • 通过动态调整量化级别以最小化过度量化方差,提升收敛性与鲁棒性。
  • 在CIFAR-10和ImageNet等标准基准上,展示在低通信环境下的显著性能提升。

提出的方法

  • ALQ通过基于估计的梯度分布参数计算最优量化级别,使用参数化模型,以最小化过度量化方差。
  • AMQ将量化级别建模为指数间隔的数值,并通过优化单个乘数参数来最小化方差,从而实现高效计算。
  • 两种方法均在工作节点之间并行计算充分统计量,以更新压缩方案,而无需全局同步。
  • 该方法设计用于逐坐标、无偏的量化,并在一般归一化条件下支持任意量化级别。
  • 建立了对过度方差与通信成本的理论边界,适用于任何自适应量化方法,包括ALQ与AMQ。
  • 该方法通过使用在线流式统计量而非批处理,避免了类似ZipML等先前自适应方法的高计算开销。

实验结果

研究问题

  • RQ1在模型准确率与通信效率方面,能否证明在训练过程中动态演化的自适应梯度量化方法优于固定量化方案?
  • RQ2训练过程中梯度分布的变化如何影响固定量化方案的最优性?
  • RQ3在无全局同步的情况下,能否在分布式环境中高效计算动态量化级别?
  • RQ4与固定方案相比,自适应方法在多大程度上降低了对超参数选择的敏感性?
  • RQ5自适应量化在数据并行SGD中的过度方差与通信成本的理论边界是什么?

主要发现

  • 在低带宽通信设置下,ALQ与AMQ在CIFAR-10上将验证准确率提升了1.9%,在ImageNet上提升了1.0%。
  • 在相同的通信约束下,该方法在准确率上优于QSGDinf、TernGrad与NUQSGD。
  • 与固定量化方案相比,该方法对超参数选择的敏感度显著降低,大幅减少了手动调参的需求。
  • 在ImageNet上使用ResNet-18时,ALQ采用3比特与1024的桶大小,将每步训练时间减少至FP32的0.21倍,仅需FP16时间的0.43倍。
  • 即使在8比特量化下,ALQ的额外计算开销也低于FP32每步更新时间的1.5倍,展现出良好的实际效率。
  • 理论分析表明,对过度方差与通信成本的边界估计非常紧密,且适用于任何自适应量化方法,包括ALQ与AMQ。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。