QUICK REVIEW

[论文解读] Quantization for Rapid Deployment of Deep Neural Networks

Jun Haeng Lee, Sangwon Ha|arXiv (Cornell University)|Oct 12, 2018

Advanced Neural Network Applications参考文献 22被引用 27

一句话总结

本文提出了一种通道级量化方法，可在无需微调的情况下，将全精度DNN快速部署到8位定点加速器上。通过利用统计矩（例如拉普拉斯分布拟合）而非最大激活值，按通道自适应调整小数位长度，该方法减少了量化误差，并仅需少量校准样本即可实现接近零的精度损失。

ABSTRACT

This paper aims at rapid deployment of the state-of-the-art deep neural networks (DNNs) to energy efficient accelerators without time-consuming fine tuning or the availability of the full datasets. Converting DNNs in full precision to limited precision is essential in taking advantage of the accelerators with reduced memory footprint and computation power. However, such a task is not trivial since it often requires the full training and validation datasets for profiling the network statistics and fine tuning the networks to recover the accuracy lost after quantization. To address these issues, we propose a simple method recognizing channel-level distribution to reduce the quantization-induced accuracy loss and minimize the required image samples for profiling. We evaluated our method on eleven networks trained on the ImageNet classification benchmark and a network trained on the Pascal VOC object detection benchmark. The results prove that the networks can be quantized into 8-bit integer precision without fine tuning.

研究动机与目标

解决在无法访问完整训练/验证数据集的情况下，将全精度DNN部署到低精度加速器的挑战。
克服逐层量化导致的精度下降问题，该问题未能考虑通道间的动态范围差异。
通过最小化或消除微调和大规模性能分析的需求，实现对最先进DNN的快速部署。
通过利用高阶统计矩而非最大激活值，减少量化所需的校准样本数量。

提出的方法

引入通道级量化，即每个通道的小数位长度根据其动态范围独立确定，而非对整个层采用单一的小数位长度。
用基于矩估计的方法（例如拉普拉斯、柯西分布或概率密度函数感知拟合）替代基于最大值的量化，以更少的样本估计最优量化参数。
利用统计特征（例如n阶矩）选择每个通道的最佳拟合概率分布，从而提升量化精度。
在通道级别对激活值和权重应用8位线性量化，最大限度减少信息损失，同时保持低硬件开销。
实现一个轻量级分类器，根据每个通道的统计特征选择最优的概率分布模型。
仅使用少量代表性图像进行量化参数校准，避免对完整数据集的依赖。

实验结果

研究问题

RQ1与逐层量化相比，通道级量化是否能减少现代DNN在8位量化中的精度损失？
RQ2统计矩估计（例如拉普拉斯、柯西分布）在多大程度上可替代基于最大值的采样，以减少所需的校准样本数量？
RQ3基于概率密度函数的自适应选择策略是否能通过更精确地建模通道级激活分布，提升量化精度？
RQ4在仅使用少量样本进行校准的情况下，是否可能在8位量化中实现接近零的精度损失，且无需微调？

主要发现

所提出的通道级量化方法在测试的12个网络中的11个中将精度损失降低至1%以内，包括ImageNet上的最先进模型。
对于Inception-v3，基于拉普拉斯分布的方法在仅100个校准样本后即实现精度稳定，而MAX方法则需要显著更多的样本才能收敛。
在Pascal VOC数据集上的YOLO-v2目标检测任务中，该方法在8位量化后仅造成0.14%的平均精度损失，而逐层量化方法则达到2.50%的损失。
PDF感知方法在YOLO-v2上实现了0.38%的平均精度损失，证明了分布感知量化优于简单的最大值基方法。
该方法实现了在无需微调的情况下，仅使用数百个校准样本，即可将全精度DNN部署到8位定点加速器上。
与使用最大值相比，采用统计矩显著减少了所需校准样本数量，同时保持或提升了量化精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。