[论文解读] ProxQuant: Quantized Neural Networks via Proximal Operators
ProxQuant 通过将量化问题形式化为通过近端梯度下降求解的正则化优化问题,提出了一种有理论依据的替代方法,以取代训练量化神经网络时使用的直通梯度法。该方法在二值量化中优于最先进方法,在多比特量化中表现相当,且比 BinaryConnect 更具稳定性。
To make deep neural networks feasible in resource-constrained environments (such as mobile devices), it is beneficial to quantize models by using low-precision weights. One common technique for quantizing neural networks is the straight-through gradient method, which enables back-propagation through the quantization mapping. Despite its empirical success, little is understood about why the straight-through gradient method works. Building upon a novel observation that the straight-through gradient method is in fact identical to the well-known Nesterov's dual-averaging algorithm on a quantization constrained optimization problem, we propose a more principled alternative approach, called ProxQuant, that formulates quantized network training as a regularized learning problem instead and optimizes it via the prox-gradient method. ProxQuant does back-propagation on the underlying full-precision vector and applies an efficient prox-operator in between stochastic gradient steps to encourage quantizedness. For quantizing ResNets and LSTMs, ProxQuant outperforms state-of-the-art results on binary quantization and is on par with state-of-the-art on multi-bit quantization. For binary quantization, our analysis shows both theoretically and experimentally that ProxQuant is more stable than the straight-through gradient method (i.e. BinaryConnect), challenging the indispensability of the straight-through gradient method and providing a powerful alternative.
研究动机与目标
- 解决直通梯度法在量化神经网络训练中经验成功但缺乏理论理解的问题。
- 开发一种比直通梯度法更具理论依据的替代方法,以确保量化过程的稳定与高效。
- 提升深度神经网络(特别是 ResNets 和 LSTMs)在二值化和多比特量化中的性能。
- 在量化约束优化问题上,建立直通梯度法与 Nesterov 双平均算法之间的正式联系。
提出的方法
- ProxQuant 将量化神经网络的训练形式化为带有量化约束的正则化学习问题。
- 对全精度权重向量执行反向传播以计算梯度。
- 在随机梯度更新步骤之间,应用高效的近端算子以强制实现量化权重。
- 近端算子作为对有效量化权重集合的投影,促进收敛至低精度解。
- 该方法基于近端梯度优化框架,确保理论上的稳定性和收敛性。
- 该方法被应用于二值化和多比特量化,并在 ResNets 和 LSTMs 上进行了评估。
实验结果
研究问题
- RQ1尽管缺乏理论依据,为什么直通梯度法在量化神经网络训练中仍能奏效?
- RQ2能否为训练量化神经网络开发一种更具理论依据的优化框架?
- RQ3ProxQuant 在二值化和多比特量化中与直通梯度法相比表现如何?
- RQ4在实践中,ProxQuant 是否比 BinaryConnect 更具稳定性?
- RQ5直通梯度法与已知优化算法之间存在何种理论关系?
主要发现
- ProxQuant 在 ResNets 和 LSTMs 的二值化量化中优于最先进方法。
- 在多比特量化中,其性能与最先进方法相当。
- 该方法在理论上和实验上均比直通梯度法(BinaryConnect)更具稳定性。
- 本文证明了直通梯度法等价于在量化约束问题上应用 Nesterov 的双平均算法。
- ProxQuant 中的近端算子能够有效且高效地在训练过程中强制实现量化权重。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。