Skip to main content
QUICK REVIEW

[论文解读] Neural Networks with Few Multiplications

Zhouhan Lin, Matthieu Courbariaux|arXiv (Cornell University)|Oct 11, 2015
Advanced Neural Network Applications参考文献 15被引用 155
一句话总结

本文提出一种方法,在深度神经网络训练过程中通过在反向传播中随机二值化权重并量化激活值,大幅减少浮点乘法运算。该方法将大部分乘法运算替换为位移操作和符号翻转,实现更快的训练速度,且精度损失极小——令人惊讶的是,在MNIST、CIFAR10和SVHN数据集上甚至提升了泛化性能。

ABSTRACT

For most deep learning algorithms training is notoriously time consuming. Since most of the computation in training neural networks is typically spent on floating point multiplications, we investigate an approach to training that eliminates the need for most of these. Our method consists of two parts: First we stochastically binarize weights to convert multiplications involved in computing hidden states to sign changes. Second, while back-propagating error derivatives, in addition to binarizing the weights, we quantize the representations at each layer to convert the remaining multiplications into binary shifts. Experimental results across 3 popular datasets (MNIST, CIFAR10, SVHN) show that this approach not only does not hurt classification performance but can result in even better performance than standard stochastic gradient descent training, paving the way to fast, hardware-friendly training of neural networks.

研究动机与目标

  • 解决深度学习训练中主要由浮点乘法引起的高计算成本问题。
  • 通过消除前向传播和反向传播中大部分乘法运算,减少训练时间和内存占用。
  • 开发一种硬件友好的训练方法,在低精度计算下仍能保持或提升模型精度。
  • 研究随机权重二值化和量化反向传播对泛化性能的正则化效应。

提出的方法

  • 在前向传播中,使用可微采样机制将全精度权重随机二值化为±1值。
  • 应用二值连接或三值连接,将矩阵乘法转换为符号翻转和位移操作。
  • 在反向传播中对激活值和误差梯度进行量化,将剩余的乘法运算转换为位移操作。
  • 采用位剪裁机制限制量化值的动态范围,降低内存和计算负载。
  • 保留全精度参考权重用于优化,通过量化梯度进行标准反向传播更新。
  • 引入一种灵活的量化方案,支持左右方向不同的位移,提升表示效率。

实验结果

研究问题

  • RQ1通过权重二值化和激活量化,能否在极少浮点乘法运算下有效训练深度神经网络?
  • RQ2所提出的量化与二值化方法是否能保持或优于标准SGD的模型泛化性能?
  • RQ3模型性能对量化反向传播中使用的位数敏感程度如何?
  • RQ4随机权重二值化对优化动态和泛化性能有何影响?
  • RQ5该方法能否在专用硬件上高效实现,从而加速深度网络的训练?

主要发现

  • 所提方法在前向和反向传播中消除了大部分浮点乘法,替换为位移和符号翻转操作。
  • 在MNIST、CIFAR10和SVHN数据集上,该方法的测试误差率与标准SGD相当或更优,其中三值连接与量化反向传播表现最佳。
  • 在不同量化位宽设置下,模型精度保持稳健,即使仅使用2位移位精度,性能下降也极小。
  • 由于随机权重采样带来的正则化效应,优化器更易找到更宽的极小值,从而提升泛化性能。
  • 使用三值权重的量化反向传播在最终测试精度上始终优于标准二值连接和全精度训练。
  • 各层激活值的分布呈现非对称性,支持左右方向不同最大位移的设定,可在不损失性能的前提下提升效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。