QUICK REVIEW

[论文解读] Neural Network Quantization for Efficient Inference: A Survey

Olivia Weng|arXiv (Cornell University)|Dec 8, 2021

Neural Networks and Applications被引用 23

一句话总结

本综述回顾了用于高效推理的神经网络量化技术，重点在于将模型精度从32位浮点数降低到8位整数等更低的位宽，同时保持精度。文章提出了未来研究方向，包括混合精度量化、混合量化方案，以及将量化与剪枝和知识蒸馏结合，以实现最优的硬件部署。

ABSTRACT

As neural networks have become more powerful, there has been a rising desire to deploy them in the real world; however, the power and accuracy of neural networks is largely due to their depth and complexity, making them difficult to deploy, especially in resource-constrained devices. Neural network quantization has recently arisen to meet this demand of reducing the size and complexity of neural networks by reducing the precision of a network. With smaller and simpler networks, it becomes possible to run neural networks within the constraints of their target hardware. This paper surveys the many neural network quantization techniques that have been developed in the last decade. Based on this survey and comparison of neural network quantization techniques, we propose future directions of research in the area.

研究动机与目标

回顾过去十年中神经网络量化技术的最新进展。
分析量化推理中模型精度、准确率与硬件效率之间的权衡。
识别量化中的关键挑战，包括准确率下降和硬件兼容性问题。
提出改进边缘和嵌入式系统中量化技术的未来研究方向。
探索量化与其他压缩技术（如剪枝和知识蒸馏）的集成。

提出的方法

本文回顾了过去十年中100余种量化技术，按精度降低策略和硬件兼容性进行分类。
基于其在训练后量化（PTQ）、量化感知训练（QAT）和混合精度方法中的应用，评估量化方法。
分析HAWQ、BSQ和动态量化等技术如何优化每层的位宽和动态范围。
研究可学习参数（如步长和动态范围）的使用，以实现在不损失准确率的前提下进行逐层量化。
通过评估算术需求以及对整数、定点和自定义数据类型的支持，衡量硬件效率。
提出将量化方案（如幂次和固定点）结合，以提升硬件效率和压缩率。

实验结果

研究问题

RQ1在保持准确率的同时，哪些量化技术最有效地减小模型大小并降低推理延迟？
RQ2深度神经网络中的过参数化如何使精度显著降低而不会导致准确率下降？
RQ3在硬件效率和实现复杂度方面，不同量化方案之间的权衡是什么？
RQ4如何为定制硬件加速器优化混合精度和混合量化策略？
RQ5量化与其他压缩技术（如剪枝和知识蒸馏）的最佳组合是什么？

主要发现

混合精度量化（即不同层使用不同位宽）在实现高精度压缩的同时，仅造成极小的准确率损失。
使用可学习步长和动态范围的量化感知训练（QAT）优于从零开始训练或固定量化方案。
位级稀疏性量化（BSQ）在比特级别引入稀疏性，与传统混合精度方法相比实现了更高的压缩率，且准确率损失可忽略不计。
通过每层优化小数位数的定点量化，可实现与整数运算相当的硬件效率，但目前仍研究不足。
将不同量化方案（如幂次和固定点）结合，可实现更高效的硬件部署，近期基于FPGA的实验结果已证明这一点。
将量化与剪枝和知识蒸馏结合具有巨大潜力，但最优组合方式仍基本未被探索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。