[論文レビュー] BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction
この論文は、ブロックごとの再構成、混合精度最適化、損失を最小化するための二次情報分析により、完全再訓練なしで競争力のある精度を実現するINT2重み量子化を達成する後処理量子化フレームワークBRECQを提案します。
We study the challenging task of neural network quantization without end-to-end retraining, called Post-training Quantization (PTQ). PTQ usually requires a small subset of training data but produces less powerful quantized models than Quantization-Aware Training (QAT). In this work, we propose a novel PTQ framework, dubbed BRECQ, which pushes the limits of bitwidth in PTQ down to INT2 for the first time. BRECQ leverages the basic building blocks in neural networks and reconstructs them one-by-one. In a comprehensive theoretical study of the second-order error, we show that BRECQ achieves a good balance between cross-layer dependency and generalization error. To further employ the power of quantization, the mixed precision technique is incorporated in our framework by approximating the inter-layer and intra-layer sensitivity. Extensive experiments on various handcrafted and searched neural architectures are conducted for both image classification and object detection tasks. And for the first time we prove that, without bells and whistles, PTQ can attain 4-bit ResNet and MobileNetV2 comparable with QAT and enjoy 240 times faster production of quantized models. Codes are available at https://github.com/yhhhli/BRECQ.
研究の動機と目的
- エンドツーエンドの再訓練なしで高品質な後処理量子化(PTQ)を動機づけ、実現する。
- 最小限のデータで極低ビット幅(INT2)を達成する再構成ベースのPTQフレームワークを開発する。
- 層間依存関係と一般化誤差のバランスを取る最適な再構成粒度を特定する。
- ハードウェア制約を尊重しつつ、ブロックごとの感度に guided された混合精度量子化を統合する。
提案手法
- ガウス・ニュートン法とフィッシャ情報を用いて、重みの摂動と出力の変化を関連づける二次誤差を分析する。
- 4種類の再構成粒度(ネット全体、ステージごと、ブロックごと、レイヤーごと)を定義し、ブロックごとの再構成が依存関係と一般化のバランスを最も良くとることを示す。
- ブロックごとの再構成を提案し、重みは適応丸め、活性化は学習可能なステップサイズでブロックごとに最適化する。
- 前活性化のヘッセ行列を対角のフィッシャ情報で近似し、勾配ベースの重要度でブロック再構成に重みづけする。
- 遅延とサイズ制約を持つ混合精度構成(2/4/8ビット)を層間で探索するための遺伝的アルゴリズムを取り入れる。
- 小さなキャリブレーション集合(約1024サンプル)を用いた実用的なPTQパイプラインを実現し、迅速な展開を可能にする。
実験結果
リサーチクエスチョン
- RQ1PTQはアーキテクチャ間で重みをINT2に量子化して精度の大幅な低下を招かずに達成できるか?
- RQ2どの再構成粒度がPTQ制約下でタスク性能を最も良く保持するか?
- RQ3二次情報をPTQにおける層/ブロックごとの再構成へどう活用できるか?
- RQ4ハードウェア制約の下で混合精度量子化を効果的に最適化し得るか?
主な発見
- ブロックごとの再構成は、INT2/4ビット設定でネットワーク全体、ステージごと、レイヤーごとの再構成よりも精度が優れている。
- BRECQはResNet-18、ResNet-50、MobileNetV2、RegNet系列、NASモデル全般で競争力のある精度を持つINT2重み量子化を実現。
- 4ビット活性化と2/4/8ビット混合精度で、PTQの性能は多くの設定でQATに近づくか同等になり、展開は格段に速い。
- BRECQを用いた量子化済みのResNet-18は、Table 2の複数のアーキテクチャでフル精度に近い精度を達成できる。
- 遺伝的アルゴリズムを用いたハードウェア意識の混合精度探索は、遅延/メモリ制約を満たしつつ精度を保持する構成を生み出す。
- 再現性のためのコードをプロジェクトリポジトリで公開。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。