QUICK REVIEW

[论文解读] Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

Benoît Jacob, Skirmantas Kligys|arXiv (Cornell University)|Dec 15, 2017

Advanced Neural Network Applications被引用 27

一句话总结

该论文提出了一种量化方案，通过将权重和激活值量化为8位整数，实现神经网络中仅使用整数的高效推理，同时通过模拟量化联合设计训练过程以保持模型精度。该方法在移动CPU上实现了高达2倍的延迟降低，仅带来约2%的精度损失，显著改善了真实硬件上MobileNets的延迟-精度权衡。

ABSTRACT

The rising popularity of intelligent mobile devices and the daunting computational cost of deep learning-based models call for efficient and accurate on-device inference schemes. We propose a quantization scheme that allows inference to be carried out using integer-only arithmetic, which can be implemented more efficiently than floating point inference on commonly available integer-only hardware. We also co-design a training procedure to preserve end-to-end model accuracy post quantization. As a result, the proposed quantization scheme improves the tradeoff between accuracy and on-device latency. The improvements are significant even on MobileNets, a model family known for run-time efficiency, and are demonstrated in ImageNet classification and COCO detection on popular CPUs.

研究动机与目标

为计算资源有限的移动和边缘设备中日益增长的高效本地推理需求提供解决方案。
克服先前量化方法的局限性，这些方法要么缺乏真实硬件评估，要么未能针对常见CPU上的纯整数算术进行优化。
协同设计量化方案与训练流程，在保持高精度的同时，实现在标准移动硬件上的快速纯整数推理。
在真实世界CPU（如高通骁龙835）上，展示对MobileNets等高效模型在延迟-精度权衡方面的显著改进。

提出的方法

将网络权重和激活值量化为8位整数，偏置以32位整数存储，从而在推理过程中实现纯整数运算。
在训练过程中采用模拟量化框架，使量化操作可微并嵌入计算图中，以模拟整数运算的影响。
采用对称量化方案，通过学习的缩放因子和零点参数，将浮点张量映射到整数范围，最小化表示误差。
使用ARM NEON内建函数实现高效的推理内核，加速常见移动CPU上纯整数卷积和激活运算。
采用训练后量化结合模拟量化微调的方法，以恢复量化过程中损失的精度。
在真实硬件（高通骁龙835）上，基于ImageNet图像分类和COCO目标检测任务评估该方法，验证延迟与精度的提升。

实验结果

研究问题

RQ1能否在标准移动CPU上高效实现8位整数推理，而无需牺牲模型精度？
RQ2协同设计的量化感知训练对量化后模型精度的影响如何，特别是在MobileNets等高效架构上？
RQ3与浮点基线相比，纯整数量化MobileNets在真实硬件上的延迟-精度权衡如何？
RQ4模型性能对量化方案中权重和激活位深变化的敏感度如何？

主要发现

所提出的纯整数量化在高通骁龙835的LITTLE和大核上实现了高达2倍的推理延迟降低，COCO检测任务的平均精度仅下降约2%。
在人脸检测任务中，8位量化模型在单个大核上以36 fps运行（25%模型），达到实时性能，而浮点版本仅能运行至23 fps。
在4核上使用多线程时，量化模型的加速比达到1.5倍至2.2倍，且在更大模型上获得更高增益，因相对开销减少。
消融实验表明，8位和7位量化模型与浮点基线性能几乎相同，而4位量化导致显著精度下降（例如，人脸属性任务中平均精度下降14%）。
当总位深相同时，保持权重与激活位深均衡（如8位/8位）的性能优于非均衡配置（如4位/8位）。
该方法使轻量级模型（如MobileNet）在低端移动设备上实现实时推理，证明了纯整数推理作为边缘AI关键推动因素的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。