Skip to main content
QUICK REVIEW

[论文解读] High-Accuracy Low-Precision Training

Christopher De, Megan Leszczynski|arXiv (Cornell University)|Mar 9, 2018
Medical Imaging and Analysis参考文献 20被引用 74
一句话总结

HALP 将 SVRG 与比特居中结合,使用固定低精度实现高精度训练,在收敛性上与全精度 SVRG 匹配,同时在 CPU 上运行更快。它在全精度 SVRG 上实现了 3–4x 的加速,并在深度学习任务上显示出有利的验证性能。

ABSTRACT

Low-precision computation is often used to lower the time and energy cost of machine learning, and recently hardware accelerators have been developed to support it. Still, it has been used primarily for inference - not training. Previous low-precision training algorithms suffered from a fundamental tradeoff: as the number of bits of precision is lowered, quantization noise is added to the model, which limits statistical accuracy. To address this issue, we describe a simple low-precision stochastic gradient descent variant called HALP. HALP converges at the same theoretical rate as full-precision algorithms despite the noise introduced by using low precision throughout execution. The key idea is to use SVRG to reduce gradient variance, and to combine this with a novel technique called bit centering to reduce quantization error. We show that on the CPU, HALP can run up to $4 imes$ faster than full-precision SVRG and can match its convergence trajectory. We implemented HALP in TensorQuant, and show that it exceeds the validation performance of plain low-precision SGD on two deep learning tasks.

研究动机与目标

  • 激发在模型训练过程中使用低精度以降低时间和能源成本。
  • 开发在固定位宽下维持或接近全精度精度的算法。
  • 分析如何在低精度训练中减轻量化噪声和梯度方差。

提出的方法

  • 提出 LP-SVRG,一种不带比特居中的低精度 SVRG 变体,其收敛受到量化的限制。
  • 引入 HALP,应用比特居中来动态重新居中并重新缩放低精度表示,以在优化进行时降低量化噪声。
  • 证明 HALP 保持类似于 SVRG 的线性收敛性,但可在固定比特表示下达到任意高的精度。
  • 提供线性模型的实际实现,展示如何在低精度下计算梯度和更新。
  • 在 TensorQuant 中实现并评估,与 LP-SVRG 和 LP-SGD 在深度学习和逻辑回归任务上进行比较。

实验结果

研究问题

  • RQ1低精度训练算法在强凸问题上能否以与全精度 SVRG 相同的速度收敛?
  • RQ2比特居中是否使 HALP 能在固定位宽的低精度算术中达到任意高的精度?
  • RQ3相对于标准的低精度 SGD 和 SVRG,在真实任务中 HALP 的实际吞吐量和精度权衡是什么?
  • RQ4LP-SVRG 与 HALP 在深度学习模型和逻辑回归上的训练损失和验证精度表现如何?

主要发现

  • LP-SVRG 线性收敛到由量化(delta)决定的一个精度受限邻域,直到达到精度下限时才与 SVRG 匹配。
  • HALP 通过使用比特居中在优化进行时缩小量化噪声,从而实现线性收敛,达到任意高的精度。
  • 在 CPU 上,HALP 在 MNIST 上比普通 SVRG 快最多 3 倍,在一个合成的 10k 特征数据集上快最多 4 倍,同时在深度模型上的验证性能达到或超过 SVRG。
  • 在深度学习实验中,8 位 HALP 与 CNNs 和 LSTMs 的全精度 SVRG 训练损失接近,并且通常与 LP-SVRG/LP-SGD 相比匹配或改善验证指标。
  • HALP 在多分类逻辑回归任务的准确度上超过 LP-SVRG 和 LP-SGD,且迭代速度最高可快 4 倍;HALP 的每个 epoch 与 LP-SGD 相差不超过 25%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。