[论文解读] Loss-aware Weight Quantization of Deep Networks
本文提出 Loss-Aware Ternarization (LAT) 及对多比特量化的扩展,在量化权重时直接优化损失,相较于现有方法,量化网络的准确率有所提升。它采用对角海森矩阵预条件的近端 Newton 方法,支持跨层的一个或两个缩放参数以及多种比特宽度。
The huge size of deep networks hinders their use in small computing devices. In this paper, we consider compressing the network by weight quantization. We extend a recently proposed loss-aware weight binarization scheme to ternarization, with possibly different scaling parameters for the positive and negative weights, and m-bit (where m > 2) quantization. Experiments on feedforward and recurrent neural networks show that the proposed scheme outperforms state-of-the-art weight quantization algorithms, and is as accurate (or even more accurate) than the full-precision network.
研究动机与目标
- 在资源受限设备上降低深度网络规模以便部署的动机。
- 开发一个损失感知的量化框架,在量化权重时直接最小化损失。
- 将损失感知量化扩展到具有逐层缩放的三值化和 m 位量化。
- 在前馈网络和循环网络上展示相较现有量化方法的更优准确性与收敛性。
提出的方法
- 将权重量化为受约束的优化问题,目标是损失,定义 hat{w} = alpha b, 其中 alpha > 0,b ∈ {-1,0,1}^n。
- 通过对角海森矩阵 D 的近端 Newton 求解子问题,以两步流程得到 w^t 与 hat{w}^t: (i) 预条件梯度步以计算 w^t,(ii) 投影/量化步以得到 hat{w}^t。
- 为 ternarization 推导 α^t 的精确解和近似解,给出闭式解(算法 1)和快速交替过程(算法 2)。
- 将框架扩展到: (a) 正/负权重的两个缩放参数,(b) 通过投影到量化集合 Q 实现的 m 位量化,以及 (c) 适用于循环网络。
实验结果
研究问题
- RQ1损失感知优化是否能超越启发式阈值提升权重量化质量?
- RQ2在对角海森预条件下,LAT 是否在前馈和循环模型中比现有二值化/三值化方法具有更好的准确性和收敛性?
- RQ3多比特和两缩放参数扩展与单一缩放的三值方法在准确性和训练动态方面的比较如何?
- RQ4所提方法在训练量化网络时的额外计算成本是否可控且实用?
主要发现
- LAT 及其变体在前馈网络上超过多种最先进的权重量化方法,覆盖 MNIST、CIFAR-10、CIFAR-100 与 SVHN 数据集。
- 在 CIFAR-10 上,LATa 的性能接近全精度网络,LATe/LAT2 变体在各数据集上均表现出强劲结果。
- 在 LSTM 语言模型任务(战争与和平、Linux 内核、Penn Treebank)中,LATe 和 LATa 超过了竞争的三值化方案,且常常超越全精度基线。
- 三进制量化中对数 3 位量化(LAQ3(log))通常在三比特量化中 yields 最佳结果,而两缩放变体(LAT2e、LAT2a)在多次场景中优于单缩放 TTQ。
- 量化网络经常达到甚至超过全精度模型的水平,表明量化具有良好的正则化效果并能维持或提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。