[論文レビュー] Post-training 4-bit quantization of convolution networks for rapid-deployment
実用的な4ビットポストトレーニング量子化フレームワークを、再訓練なしでCNNに適用する。解析的クリッピングによる整数量子化(ACIQ)、チャンネルごとのビット割り当て、および精度を維持するためのバイアス補正を採用。
Convolutional neural networks require significant memory bandwidth and storage for intermediate computations, apart from substantial computing resources. Neural network quantization has significant benefits in reducing the amount of intermediate results, but it often requires the full datasets and time-consuming fine tuning to recover the accuracy lost after quantization. This paper introduces the first practical 4-bit post training quantization approach: it does not involve training the quantized model (fine-tuning), nor it requires the availability of the full dataset. We target the quantization of both activations and weights and suggest three complementary methods for minimizing quantization error at the tensor level, two of whom obtain a closed-form analytical solution. Combining these methods, our approach achieves accuracy that is just a few percents less the state-of-the-art baseline across a wide range of convolutional models. The source code to replicate all experiments is available on GitHub: \url{https://github.com/submission2019/cnn-quantization}.
研究の動機と目的
- 完全な訓練データにアクセスできない状態で、低ビット量子化されたCNNを迅速に展開する動機づけ。
- 解析的クリッピングとチャネル認識的ビット幅選択を通じてテンソルレベルの量子化誤差を最小化する。
- 再訓練なしで活性化と重みに対して正確な4ビット量子化を実現する。
- 重みによる量子化誘発のバイアスを緩和するためのバイアス補正を提供する。
提案手法
- ACIQを導入: アクティベーションの平均二乗誤差を最小化するようクリッピング閾値を解析的に決定する。
- 固定平均ビット予算の下でチャネルごとに最適なビット幅を割り当てるためのチャンネル別ビット割り当てを提案する。
- 重みにおける量子化バイアスを補償するためのバイアス補正を適用する。
- 提案手法を用いて重みと活性化の両方を量子化し、共同展開パイプラインで適用する。
- ノイズ低減のために結合ReLUを用いたチャネル別量子化方式を使用する。
- これらの手法を組み合わせると、微調整なしで劣化の大半を回復できることを示す。
実験結果
リサーチクエスチョン
- RQ14ビットのポストトレーニング量子化は、完全な訓練データを用いずにCNNの浮動小数点精度に近づけることができるか?
- RQ2解析的クリッピング、チャネル別ビット割り当て、バイアス補正が、個別にも共同にも4ビット量子化の精度にどれだけ影響するか?
- RQ3一般的なCNNアーキテクチャ全体で、重みと活性化の両方を4ビットに量子化して許容できる損失で実現可能か?
- RQ4これらのポストトレーニング手法を適用した場合の展開速度とメモリの実用的な利得は何か?
主な発見
- ACIQと重みのバイアス補正は、4ビットのベースラインを平均約3.2%、約6.0%それぞれ改善する。
- チャネルごとのビット割り当ては活性化量子化を約2.85%、重量量子化を約6.3%改善する。
- 重みと活性化の両方に対して三つの手法すべてを組み合わせると、再訓練なしで劣化した精度のほとんどを回復する。
- 6つのImageNetモデルにわたり、4ビットのポストトレーニング量子化は最先端ベースラインに近い精度を最小限の再訓練で達成し、迅速な展開を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。