QUICK REVIEW

[论文解读] Bridging the Accuracy Gap for 2-bit Quantized Neural Networks (QNN)

Jungwook Choi, Pierce Chuang|arXiv (Cornell University)|Jul 17, 2018

Advanced Neural Network Applications参考文献 13被引用 38

一句话总结

本文提出 PACT（参数化裁剪激活）和 SAWB（统计感知权重重分组），以实现准确率达到当前最先进水平的 2 位量化神经网络（QNNs），在不改变网络结构的前提下，其性能可与全精度模型相媲美。PACT 在训练过程中优化激活裁剪参数，而 SAWB 利用权重重分布的统计特性计算最优缩放因子，从而在无需穷举搜索的情况下最小化量化误差。该方法在 ImageNet 和 CIFAR-10 上实现了接近零的精度损失，且计算开销极低。

ABSTRACT

Deep learning algorithms achieve high classification accuracy at the expense of significant computation cost. In order to reduce this cost, several quantization schemes have gained attention recently with some focusing on weight quantization, and others focusing on quantizing activations. This paper proposes novel techniques that target weight and activation quantizations separately resulting in an overall quantized neural network (QNN). The activation quantization technique, PArameterized Clipping acTivation (PACT), uses an activation clipping parameter $α$ that is optimized during training to find the right quantization scale. The weight quantization scheme, statistics-aware weight binning (SAWB), finds the optimal scaling factor that minimizes the quantization error based on the statistical characteristics of the distribution of weights without the need for an exhaustive search. The combination of PACT and SAWB results in a 2-bit QNN that achieves state-of-the-art classification accuracy (comparable to full precision networks) across a range of popular models and datasets.

研究动机与目标

在不增加模型大小的前提下，弥合 2 位量化神经网络（QNNs）的准确率差距。
开发一种可在训练过程中自适应调整的鲁棒激活量化方法，以维持模型准确率。
设计一种高效的权重重量化方案，通过统计权重重分布分析，快速找到最优缩放因子。
在多种模型和数据集上实现 2 位 QNN 的最先进分类准确率，使其与全精度网络相当。
证明在不增加网络宽度或深度的前提下，可实现高准确率量化，同时保持计算效率。

提出的方法

PACT 引入一个可学习的激活裁剪参数 α，在反向传播过程中进行优化，以动态调整激活量化的范围。
SAWB 通过分析权重重分布的统计特性，计算权重量化所需的最优缩放因子，从而在无需穷举搜索的情况下最小化量化误差。
该方法独立地将 PACT 应用于激活，将 SAWB 应用于权重，实现了端到端的 2 位 QNN 训练，且精度损失极小。
该方法避免了网络加宽或使用全精度层重新训练的需求，同时保持 O(n) 的计算开销。
PACT 与 SAWB 被整合进统一的 QNN 训练流程中，支持量化参数的联合优化。
该框架在标准基准（包括 AlexNet、ResNet-20 和 ImageNet）上进行了评估，并对通道加宽进行了消融研究。

实验结果

研究问题

RQ12 位量化神经网络是否能在不修改网络结构的前提下，实现与全精度模型相当的分类准确率？
RQ2如何在训练过程中使激活量化具备自适应能力，以最小化准确率下降？
RQ3能否设计一种高效、非穷举的权重重量化缩放因子选择方法，使其优于现有的搜索方法或启发式方法？
RQ4结合鲁棒的激活与权重量化技术，是否能在多种模型和数据集上实现 2 位精度下的等效准确率？
RQ5在不增加网络宽度或参数量的前提下，2 位 QNN 的模型准确率能在多大程度上得以保持？

主要发现

所提出的 PACT+SAWB 2 位 QNN 在 AlexNet 上实现了与全精度基线模型相同的准确率，无任何精度损失，优于以往方法。
在 CIFAR-10 上，2 位 QNN 的 Top-1 准确率损失低于 1%，展现出在多种模型上的强大泛化能力。
在 ImageNet 上，该方法在所有文献报道的 2 位量化技术中取得了最高的分类准确率。
该方法在不增加模型大小的前提下，保持了接近全精度的准确率，而 WRPN-2x 则需将网络加宽 2 倍才能恢复准确率。
当与通道加宽结合时，PACT+SAWB 仅需 1.25 倍的通道扩展即可达到全精度准确率，远低于 DoReFa 所需的 2 倍扩展。
能效得以保持：WRPN-2x 因 MAC 操作增加 4 倍而损失了 4 倍的能效优势，而 PACT+SAWB 无此类权衡，保持了高能效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。