QUICK REVIEW

[论文解读] Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation

Hao Wu, Patrick Judd|arXiv (Cornell University)|Apr 20, 2020

Advanced Neural Network Applications参考文献 57被引用 217

一句话总结

本论文分析深度学习推断的统一整数量化的数学原理，并在视觉、语言和语音模型中评估 PTQ 与 QAT，在 8 位量化工作流下达到接近 FP32 的精度，误差在 1% 以内。

ABSTRACT

Quantization techniques can reduce the size of Deep Neural Networks and improve inference latency and throughput by taking advantage of high throughput integer instructions. In this paper we review the mathematical aspects of quantization parameters and evaluate their choices on a wide range of neural network models for different application domains, including vision, speech, and language. We focus on quantization techniques that are amenable to acceleration by processors with high-throughput integer math pipelines. We also present a workflow for 8-bit quantization that is able to maintain accuracy within 1% of the floating-point baseline on all networks studied, including models that are more difficult to quantize, such as MobileNets and BERT-large.

研究动机与目标

阐明权重与激活的统一整数量化的数学基础。
评估量化粒度和校准对多种模型的准确度的影响。
提供实用的 PTQ（后量化）和 QAT（量化感知训练）工作流与指导。
评估在量化降低性能时恢复精度的技术（部分量化、基于训练的方法）。
展示仿射量化与尺度量化在推理效率方面的权衡。

提出的方法

将统一量化表述为实数区间与整数区间之间的仿射映射或尺度映射。
分析量化粒度（每张量、每行/列、每通道）及其对整数 GEMM 可行性和精度的影响。
比较激活与权重的校准方法（最大值、熵/KL、百分位）。
在多种模型和任务上评估 PTQ 与 QAT。
提出部分量化，将最敏感的层保留为浮点以恢复精度。
讨论在训练中学习量化参数和学习激活范围（PACT）。

实验结果

研究问题

RQ1在 DL 推断中，仿射量化与尺度量化在计算效率和准确性方面有何比较？
RQ2量化粒度对模型准确性和硬件性能有何影响？
RQ3PTQ 是否能在多样化架构中达到接近浮点精度的效果，何时 QAT 有利？
RQ4哪些校准策略在各模型中能最好地保持权重和激活的精度？
RQ5哪些实用工作流能够在 8 位推断中将精度维持在接近 FP32 的 1% 内？

主要发现

统一尺度量化在实现高效整数 GEMM 时开销很小，而仿射量化会带来额外的计算开销。
带最大校准的逐通道权重量化在跨网络时保持了精度，即使在 BN 融合后；逐张量量化在若干模型上可能导致显著损失。
使用熵或高百分位（如 99.99%）进行激活校准在许多网络上可获得最佳 PTQ 精度；最大值校准在存在离群值的网络上往往表现不佳。
PTQ 可在许多模型中将精度维持在 1% 之内；一些网络（如 MobileNet、EfficientNet、Transformer、BERT）需要额外的技术如部分量化或 QAT 来维持精度。
量化感知训练（QAT）进一步提升精度，且可达到或超过 PTQ 的结果，经过微调后大多数网络仍保持在 FP32 基线的 1% 之内。
部分量化通过跳过最敏感的层来恢复精度；在某些情形下，带学习区间（PACT）的 QAT 提供进一步提升。
在训练中对激活采用学习的区间可以提升若干模型的后量化结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。