Skip to main content
QUICK REVIEW

[论文解读] Near-Lossless Post-Training Quantization of Deep Neural Networks via a Piecewise Linear Approximation

Jun Fang, Ali Shafiee|arXiv (Cornell University)|Jan 31, 2020
Advanced Neural Network Applications参考文献 5被引用 10
一句话总结

该论文提出了一种分段线性量化(PWLQ)方法,这是一种后训练量化技术,通过将张量值范围划分为非重叠区域并分配相等的量化级别,从而在低比特宽度下提升模型精度。通过优化断点以最小化量化误差,PWLQ在图像分类、语义分割和目标检测任务中实现了当前最优的性能,且计算开销极低。

ABSTRACT

Quantization plays an important role in the energy-efficient deployment of deep neural networks on resource-limited devices. Post-training quantization is highly desirable since it does not require retraining or access to the full training dataset. The well-established uniform scheme for post-training quantization achieves satisfactory results by converting neural networks from full-precision to 8-bit fixed-point integers. However, it suffers from significant performance degradation when quantizing to lower bit-widths. In this paper, we propose a piecewise linear quantization (PWLQ) scheme to enable accurate approximation for tensor values that have bell-shaped distributions with long tails. Our approach breaks the entire quantization range into non-overlapping regions for each tensor, with each region being assigned an equal number of quantization levels. Optimal breakpoints that divide the entire range are found by minimizing the quantization error. Compared to state-of-the-art post-training quantization methods, experimental results show that our proposed method achieves superior performance on image classification, semantic segmentation, and object detection with minor overhead.

研究动机与目标

  • 解决在低比特宽度(如4比特或更低)下统一后训练量化导致的性能下降问题。
  • 实现对具有钟形分布和长尾特性的张量的高精度量化,这类张量在统一方案下难以处理。
  • 开发一种无需微调和完整训练数据访问的后训练量化方法,同时保持高模型精度。
  • 通过在每个张量的非均匀、分段线性区域中优化断点位置,最小化量化误差。
  • 在图像分类、语义分割和目标检测等多样化视觉任务中,相比现有后训练方法,实现更优的性能表现。

提出的方法

  • 根据数据分布将每个张量值的完整范围划分为非重叠区域。
  • 为每个区域分配相等数量的量化级别,从而实现对张量值的分段线性逼近。
  • 通过使用误差函数的可微分近似,优化区域之间的断点以最小化量化误差。
  • 在推理阶段应用该量化方案,无需微调或访问原始训练数据。
  • 使用分段线性函数将全精度值映射为低比特整数,断点根据每个张量动态确定。
  • 通过限制区域数量并采用高效的优化技术,在量化精度与计算成本之间实现平衡。

实验结果

研究问题

  • RQ1分段线性量化方案是否能在低比特宽度下优于深度神经网络的统一量化?
  • RQ2所提出的方法如何处理具有非均匀、钟形分布和长尾特性的张量?
  • RQ3与当前最先进的后训练量化技术相比,该方法在多大程度上减少了量化误差?
  • RQ4在所提出的框架中,量化精度与计算开销之间的权衡如何?
  • RQ5该方法是否能在图像分类、语义分割和目标检测等多样化计算机视觉任务中保持高性能?

主要发现

  • PWLQ在图像分类、语义分割和目标检测基准测试中,相比当前最先进的后训练量化方法,实现了更优的精度表现。
  • 通过优化的非均匀断点自适应张量值分布,该方法显著降低了量化误差。
  • 即使在4比特或更低的极低比特宽度下,PWLQ仍能保持高模型性能,而统一量化通常在此情况下出现严重精度下降。
  • 该方法仅引入极小的计算开销,使其在资源受限设备上具有实际部署可行性。
  • 分段线性逼近能有效捕捉深度神经网络激活中常见的长尾分布。
  • 该方法无需微调或访问完整训练数据集,保留了后训练量化的核心优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。