QUICK REVIEW

[论文解读] MQBench: Towards Reproducible and Deployable Model Quantization Benchmark

Yuhang Li, Mingzhu Shen|arXiv (Cornell University)|Nov 5, 2021

Advanced Neural Network Applications被引用 23

一句话总结

MQBench 提出了一套可复现且可部署的模型量化基准测试，统一了训练流程，并在五个真实硬件平台（CPU、GPU、ASIC、DSP）上评估了当前最先进量化算法。结果表明，尽管在一致训练条件下各类算法表现相近，但在实际硬件部署环境中仍存在显著的准确率差距，且没有单一算法能在所有挑战中全面占优，揭示了当前量化研究领域在可复现性与可部署性方面存在关键缺口。

ABSTRACT

Model quantization has emerged as an indispensable technique to accelerate deep learning inference. While researchers continue to push the frontier of quantization algorithms, existing quantization work is often unreproducible and undeployable. This is because researchers do not choose consistent training pipelines and ignore the requirements for hardware deployments. In this work, we propose Model Quantization Benchmark (MQBench), a first attempt to evaluate, analyze, and benchmark the reproducibility and deployability for model quantization algorithms. We choose multiple different platforms for real-world deployments, including CPU, GPU, ASIC, DSP, and evaluate extensive state-of-the-art quantization algorithms under a unified training pipeline. MQBench acts like a bridge to connect the algorithm and the hardware. We conduct a comprehensive analysis and find considerable intuitive or counter-intuitive insights. By aligning the training settings, we find existing algorithms have about the same performance on the conventional academic track. While for the hardware-deployable quantization, there is a huge accuracy gap which remains unsettled. Surprisingly, no existing algorithm wins every challenge in MQBench, and we hope this work could inspire future research directions.

研究动机与目标

为解决模型量化研究中因训练流程不一致和硬件特定假设导致的可复现性与可部署性不足问题。
建立一个统一的基准测试框架，评估量化算法在标准化训练设置和真实硬件部署约束下的表现。
识别并分析学术性能与真实硬件部署结果之间的差异。
通过引入批归一化折叠、图级量化和参数共享等硬件感知量化实践，弥合算法研究与实际部署之间的差距。
通过揭示现有算法在所有可复现且可部署的基准测试中均无一以稳定优势胜出，激发未来研究。

提出的方法

MQBench 对所有评估的量化算法统一了超参数、优化器设置和数据增强策略，以确保可复现性。
在 ImageNet 上，基于相同的训练流程评估了多种量化技术——QAT、PTQ、PACT、DoReFa-Net、LSQ、APoT 和 QIL。
基准测试包含硬件感知的改进，如批归一化折叠、完整图级量化，以及在拼接操作中共享量化参数。
实现张量级与通道级量化，支持对称与非对称范围，并调整激活范围（例如从 [0,1] 调整为 [-1,1]）以提升硬件兼容性。
该框架支持五种部署平台：CPU、GPU、ASIC、DSP，并包含完整的图级量化，以真实反映推理场景。
对于如 QIL 等不稳定方法，通过调整梯度缩放以改善收敛性，并在多个硬件环境中验证结果。

实验结果

研究问题

RQ1标准化训练流程在多大程度上影响了最先进量化算法的性能比较？
RQ2学术量化结果与真实硬件部署结果之间的性能差距有多大？
RQ3为何现有量化算法在统一训练条件下表现相近，却在不同硬件平台上无法保持一致的准确率？
RQ4硬件特定优化（如 BN 折叠和图级量化）如何影响量化模型的最终准确率？
RQ5是否存在一种量化算法，能在所有可复现且可部署的基准测试中持续优于其他算法？

主要发现

在统一训练设置下，现有量化算法在标准学术基准上表现相近，表明性能差异主要源于训练流程差异，而非算法本身的优越性。
在可部署的硬件环境中，仍存在显著的准确率差距，且无任何算法能在所有平台上持续优于其他算法，表明可部署性方面仍存在未解决的挑战。
采用通道级量化与非对称范围，并辅以适当的截断（如 [-1,1]）可显著提升硬件平台上的性能，优于简单实现。
专为张量级量化设计的量化算法在应用于通道级设置时往往失效，凸显了对量化器多样性具备鲁棒性的必要性。
QIL 方法在复现过程中表现不稳定，即使调整梯度缩放，仍无法在标准训练设置下收敛，表明其训练动力学可能存在潜在问题。
硬件特定优化（如 BN 折叠和拼接操作中的共享量化参数）对保持准确率至关重要，必须纳入基准测试中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。