Skip to main content
QUICK REVIEW

[论文解读] QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization

Xiuying Wei, Ruihao Gong|arXiv (Cornell University)|Mar 11, 2022
Advanced Neural Network Applications被引用 44
一句话总结

QDROP 在 PTQ 重建过程中引入随机激活量化丢弃,从而实现极低比特的 PTQ(2 位激活)并在视觉和语言任务上取得显著的准确性提升,确立了新的最先进水平。

ABSTRACT

Recently, post-training quantization (PTQ) has driven much attention to produce efficient neural networks without long-time retraining. Despite its low cost, current PTQ works tend to fail under the extremely low-bit setting. In this study, we pioneeringly confirm that properly incorporating activation quantization into the PTQ reconstruction benefits the final accuracy. To deeply understand the inherent reason, a theoretical framework is established, indicating that the flatness of the optimized low-bit model on calibration and test data is crucial. Based on the conclusion, a simple yet effective approach dubbed as QDROP is proposed, which randomly drops the quantization of activations during PTQ. Extensive experiments on various tasks including computer vision (image classification, object detection) and natural language processing (text classification and question answering) prove its superiority. With QDROP, the limit of PTQ is pushed to the 2-bit activation for the first time and the accuracy boost can be up to 51.49%. Without bells and whistles, QDROP establishes a new state of the art for PTQ. Our code is available at https://github.com/wimh966/QDrop and has been integrated into MQBench (https://github.com/ModelTC/MQBench)

研究动机与目标

  • 调查激活量化在后训练量化(PTQ)中的作用。
  • 构建一个理论框架,将激活量化与损失平坦性和泛化性联系起来。
  • 提出一个简单、即插即用的方法(QDROP),在 PTQ 重建过程中随机丢弃激活量化。
  • 展示在卷积神经网络、视觉任务和自然语言处理模型上的 PTQ 性能达到或超过现有最先进水平。
  • 证明 2 位激活 PTQ 变得实用,并带来显著的准确性提升。

提出的方法

  • 将 PTQ 建模为权重和激活的联合扰动。
  • 提供一个理论框架(定理1),将损失变化分解为权重扰动项和激活扰动项。
  • 进行经验研究,比较块重建过程中不同激活量化策略的情况。
  • 提出 QDROP:激活量化按元素随机以伯努利概率 p 在每个前向传播中被丢弃。
  • 证明 QDROP 在卷积神经网络、Transformer 以及 NLP 模型上能得到更平坦的损失景观和更好的测试准确性。
  • 在 ImageNet、MS COCO、GLUE 与 SQuAD 上进行评估,使用常见的 8/4/2 位配置。

实验结果

研究问题

  • RQ1将激活量化纳入 PTQ 重建是否能在极低比特设置下提高准确性?
  • RQ2激活量化如何影响权重调优以及在标定数据和测试数据上的损失景观(平坦性)?
  • RQ3随机、逐前向传播丢弃激活量化是否能提升对测试数据的泛化能力?
  • RQ4与现有 PTQ 方法相比,QDROP 在计算机视觉和自然语言处理基准上的表现如何?

主要发现

  • 在 PTQ 重建过程中的激活量化在极低比特宽度下显著提高准确性,Case2/Case3 的表现优于完全激活量化(Case1)。
  • 一个理论框架表明损失变化分为权重扰动项和激活扰动项,将平坦性与测试准确性联系起来。
  • QDROP 在模型和任务上持续提升强基线 PTQ 的性能,使 2 位激活 PTQ 变得可行且具有显著收益(引用最高提升 51.49%)。
  • QDROP 是一个简单、即插即用的模块,适用于 CNN 和 Transformer,在 ImageNet、MS COCO、GLUE 和 SQuAD 上改善 PTQ。
  • 在所有结果中,QDROP 实现了最先进的 PTQ 性能,而无需大量再训练或数据增强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。