QUICK REVIEW

[论文解读] EasyQuant: Post-training Quantization via Scale Optimization

Di Wu, Qi Tang|arXiv (Cornell University)|Jun 30, 2020

Advanced Neural Network Applications参考文献 31被引用 39

一句话总结

EasyQuant (EQ) 通过交替优化权重和激活的逐层缩放来执行后训练量化，在7位量化下接近INT8的精度，并在 ARM 上提供 INT7 推理，相较于 TRT 提供更好的延迟。

ABSTRACT

The 8 bits quantization has been widely applied to accelerate network inference in various deep learning applications. There are two kinds of quantization methods, training-based quantization and post-training quantization. Training-based approach suffers from a cumbersome training process, while post-training quantization may lead to unacceptable accuracy drop. In this paper, we present an efficient and simple post-training method via scale optimization, named EasyQuant (EQ),that could obtain comparable accuracy with the training-based method.Specifically, we first alternately optimize scales of weights and activations for all layers target at convolutional outputs to further obtain the high quantization precision. Then, we lower down bit width to INT7 both for weights and activations, and adopt INT16 intermediate storage and integer Winograd convolution implementation to accelerate inference.Experimental results on various computer vision tasks show that EQ outperforms the TensorRT method and can achieve near INT8 accuracy in 7 bits width post-training.

研究动机与目标

在受限环境中说明为何后训练量化比重新训练更可取。
提出一种简洁而高效的缩放优化方法，以最大化 FP32 与量化卷积输出之间的相似性。
表明权重和激活缩放的交替优化在准确性方面可与基于训练的量化相竞争。
展示在 ARM 平台上使用 INT16 存储和整数 Winograd 的 INT7 后训练推理，以改善硬件延迟。
在图像分类、目标检测和人脸识别任务中验证该方法。

提出的方法

模型量化被表述为 Q(X,S)=Clip(Round(X·S))，其中激活的逐层缩放为 S^a，权重为 S^w。
对于每一层，在固定 S^a 的情况下优化 S^w，然后在固定 S^w 的情况下优化 S^a，以最大化在标定集上 FP32 输出 O_l 与量化输出 Ō_l 之间的余弦相似度。
在整个网络中应用顺序的贪婪逐层优化，迭代直到收敛或达到时间限制。
初始化使用权重和激活的最大值；对每层在 [0.5·S_l, 2·S_l] 区间内进行 100 个候选缩放的简单线性搜索。
对于逐通道量化，可以对每个滤波器并行调优单独的缩放。
INT7 后训练推理在 ARM 上实现，使用 INT16 中间结果和基于 Winograd 的卷积，以提升速度并降低存储，相较于 INT8 流程。

实验结果

研究问题

RQ1通过优化每层的权重和激活缩放，后训练量化是否能达到接近基于训练的量化的准确性？
RQ2逐层交替优化激活与权重缩放是否能显著提升 FP32 与量化卷积输出之间的余弦相似度，从而在多任务中维持准确性？
RQ3在使用 INT16 中间结果和整数 Winograd 的条件下，INT7 后训练推理在 ARM 设备上是否实现了实际的延迟改进？
RQ4与 TensorRT 和 QAT 基线相比，EasyQuant 在图像分类、目标检测和人脸识别基准上的表现如何？
RQ5在视觉任务中七位量化的局限性有哪些，EQ 如何缓解？

主要发现

在多种模型和任务中，EQ 在 INT8 通道量化方面达到与 TensorRT (TRT) 竞争性或更好的精度。
在若干体系结构和任务中，EQ 在 7 位量化（INT7）下实现接近 INT8 的精度，且在 INT7 情形下比 TRT 的鲁棒性更好。
INT7 推理，使用 INT16 中间结果和整数 Winograd，在 ARM 平台上的延迟低于 INT8 基线。
在 ImageNet 分类、VOC2007 目标检测和标准人脸识别基准上，EQ 在 INT8/INT7 设置中持续优于 TRT。
案例显示在 INT8 量化下，EQ 可与 MobileNetV1 和 ResNet50 的 QAT 结果竞争甚至超越。
INT7 部署受益于更快的基于 SMLAL/SADALP 的计算和降低的内存传输量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。