[论文解读] PACT: Parameterized Clipping Activation for Quantized Neural Networks
PACT 引入可学习的截断参数 alpha,在训练期间激活量化,使4位权重和激活近似全精度,并提高硬件效率。
Deep learning algorithms achieve high classification accuracy at the expense of significant computation cost. To address this cost, a number of quantization schemes have been proposed - but most of these techniques focused on quantizing weights, which are relatively smaller in size compared to activations. This paper proposes a novel quantization scheme for activations during training - that enables neural networks to work well with ultra low precision weights and activations without any significant accuracy degradation. This technique, PArameterized Clipping acTivation (PACT), uses an activation clipping parameter $α$ that is optimized during training to find the right quantization scale. PACT allows quantizing activations to arbitrary bit precisions, while achieving much better accuracy relative to published state-of-the-art quantization schemes. We show, for the first time, that both weights and activations can be quantized to 4-bits of precision while still achieving accuracy comparable to full precision networks across a range of popular models and datasets. We also show that exploiting these reduced-precision computational units in hardware can enable a super-linear improvement in inferencing performance due to a significant reduction in the area of accelerator compute engines coupled with the ability to retain the quantized model and activation data in on-chip memories.
研究动机与目标
- 通过在训练期间对激活进行量化来降低CNN计算和存储成本的动机。
- 引入一个可学习的激活截断参数 α,以优化量化尺度。
- 证明在多种模型/数据集上,4位量化网络可以接近全精度的准确性。
- 分析降低精度对硬件的影响以及潜在的系统级性能提升。
提出的方法
- 用 PACT 替代 ReLU,一种带有截断值 α 的参数化剪裁激活函数。
- 在剪裁后使用线性量化将剪裁后的激活 y 量化为 k 位。
- 通过反向传播学习 α,并使用直通估计器来估计梯度。
- 用 L2 正则化项对 α 进行正则化,以促进更小的激活区间并降低量化误差。
- 在每层共享 α,以降低硬件复杂性并简化最终输出缩放。
实验结果
研究问题
- RQ1带有可学习截断参数的激活量化在极低比特精度下是否能保持准确性?
- RQ2在训练期间优化 α 是否比固定/剪裁激活获得更好的量化尺度?
- RQ3在不同的 CNN 架构和数据集上使用 PACT 时,准确性与硬件取舍是什么?
- RQ4权重和激活均为4位的量化在不显著降低准确性的情况下是否可行?
主要发现
- PACT 通过可学习的截断参数实现激活量化并保持准确性。
- 使用 PACT 的4位量化CNN在多种架构和数据集上达到与全精度网络相似的准确性。
- 在 AlexNet、ResNet18、ResNet50 的低比特精度下,PACT 在准确性下降方面优于先前的量化方案。
- 在测试的网络中,使用 PACT 将权重和激活联合量化为4位可实现接近全精度的性能。
- 系统级分析显示,在带宽受限的硬件上使用降低精度时,显著的硬件面积缩减以及潜在的超线性性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。