Skip to main content
QUICK REVIEW

[論文レビュー] QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization

Xiuying Wei, Ruihao Gong|arXiv (Cornell University)|Mar 11, 2022
Advanced Neural Network Applications被引用数 44
ひとこと要約

QDROP は PTQ 再構成時にランダムな活性化量子化のドロップを導入し、極めて低ビット PTQ(2ビット活性化)を可能とする。視覚・言語タスク全般で大幅な精度向上を実現し、新しい最先端を確立する。

ABSTRACT

Recently, post-training quantization (PTQ) has driven much attention to produce efficient neural networks without long-time retraining. Despite its low cost, current PTQ works tend to fail under the extremely low-bit setting. In this study, we pioneeringly confirm that properly incorporating activation quantization into the PTQ reconstruction benefits the final accuracy. To deeply understand the inherent reason, a theoretical framework is established, indicating that the flatness of the optimized low-bit model on calibration and test data is crucial. Based on the conclusion, a simple yet effective approach dubbed as QDROP is proposed, which randomly drops the quantization of activations during PTQ. Extensive experiments on various tasks including computer vision (image classification, object detection) and natural language processing (text classification and question answering) prove its superiority. With QDROP, the limit of PTQ is pushed to the 2-bit activation for the first time and the accuracy boost can be up to 51.49%. Without bells and whistles, QDROP establishes a new state of the art for PTQ. Our code is available at https://github.com/wimh966/QDrop and has been integrated into MQBench (https://github.com/ModelTC/MQBench)

研究の動機と目的

  • ポストトレーニング量子化(PTQ)における活性化量子化の役割を調査する。
  • 活性化量子化と損失の平坦性および汎化性能を結びつける理論的枠組みを開発する。
  • PTQ再構成時に活性化量子化をランダムにドロップする、シンプルでプラグアンドプレイ可能な手法(QDROP)を提案する。
  • CNN、視覚タスク、およびNLPモデルにおいて最先端のPTQ性能を示す。
  • 2ビット活性化PTQが実用的となり、著しい精度向上をもたらすことを示す。

提案手法

  • PTQを重みと活性化の共同摂動としてモデル化する。
  • 損失変化を重みの摂動項と活性化の摂動項に分解する定理1を含む理論的枠組みを提供する。
  • ブロック再構成時の異なる活性化量子化戦略を比較する実証研究を実施する。
  • QDROPを提案する:活性化量子化は前方伝播ごとに独立したBernoulli確率pでランダムにドロップする(要素ごと)。
  • QDROPはCNN、トランスフォーマー、NLPモデル全体で損失平坦性の向上とテスト精度の向上を示す。
  • 一般的な8/4/2ビット構成でImageNet、MS COCO、GLUE、SQuADを評価する。

実験結果

リサーチクエスチョン

  • RQ1非常に低ビット設定で、PTQ再構成に活性化量子化を組み込むことは精度を改善するか?
  • RQ2活性化量子化はキャリブレーションデータとテストデータにおける重み調整と損失の平坦さにどのように影響するか?
  • RQ3前方ごとにランダムに活性化量子化をドロップすることは、テストデータへの汎化を改善するか?
  • RQ4既存のPTQ手法と比較して、QDROPはコンピュータビジョンと自然言語処理のベンチマークでどのように性能を示すか?

主な発見

  • PTQ再構成時の活性化量子化は非常に低ビット幅で精度を大幅に向上させ、Case2/Case3が全活性化量子化(Case1)を上回る。
  • 損失変化が重み摂動項と活性化摂動項に分解される理論枠組みを示し、平坦性とテスト精度を結びつける。
  • QDROPはモデルとタスクを跨いで強力なPTQベースラインを一貫して改善し、実用的な2ビット活性化PTQを大幅に改善可能にする(最大51.49%の改善が言及される)。
  • QDROPはCNNとTransformerで機能するシンプルなプラグアンドプレイモジュールで、ImageNet、MS COCO、GLUE、SQuADのPTQを改善する。
  • 結果全体として、QDROPは大規模な再学習やデータ拡張なしで最先端のPTQ性能を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。