[論文レビュー] Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation
この論文はDL推論のための一様整数量子化の数学を分析し、視覚、言語、音声モデルを横断してPTQとQATを評価し、8ビット量子化ワークフローでFP32の精度とほぼ同等を達成します(1%以内)。
Quantization techniques can reduce the size of Deep Neural Networks and improve inference latency and throughput by taking advantage of high throughput integer instructions. In this paper we review the mathematical aspects of quantization parameters and evaluate their choices on a wide range of neural network models for different application domains, including vision, speech, and language. We focus on quantization techniques that are amenable to acceleration by processors with high-throughput integer math pipelines. We also present a workflow for 8-bit quantization that is able to maintain accuracy within 1% of the floating-point baseline on all networks studied, including models that are more difficult to quantize, such as MobileNets and BERT-large.
研究の動機と目的
- Weights と activations の一様整数量子化の数学的基礎を明確化する。
- 量子化の粒度と較正が多様なモデルでの精度に与える影響を評価する。
- ポストトレーニング量子化(PTQ)と量子化対 training(QAT)の実用的なワークフローと指針を提供する。
- 量子化が性能を低下させる場合の精度回復技術(部分量子化、トレーニングベースの方法)を評価する。
- 推論効率のためのアフィン量子化とスケール量子化のトレードオフを示す。
提案手法
- 一様量子化を実数レンジと整数レンジ間のアフィンまたはスケール写像として定式化する。
- 量子化の粒度( per-tensor、 per-row/column、 per-channel)と、それが整数 GEMM の実現性と精度に与える影響を分析する。
- 活性化と重みの較正法(最大、エントロピー/KL、パーセンタイル)を比較する。
- 複数のモデルとタスクにわたるPTQとQATを評価する。
- 感度の高い層を浮動小数点のまま残す部分量子化を提案して精度を回復する。
- トレーニング中に量子化パラメータと活性化レンジを学習する(PACT)を検討する。
実験結果
リサーチクエスチョン
- RQ1Affineとスケール量子化はDL推論の計算効率と精度の観点でどう比較されるか。
- RQ2量子化の粒度がモデルの精度とハードウェア性能に与える影響は?
- RQ3PTQ はさまざまなアーキテクチャで浮動小数点近似の精度に近づけることができるか、そしていつ QAT が有益か。
- RQ4どの較正戦略が重みと活性化の精度をモデル全体で最もよく維持するか。
- RQ58ビット推論で FP32 に対する精度を1%以内に維持する実用的なワークフローは何か。
主な発見
- 一様スケール量子化は、Affine 量子化が追加の計算を伴うのとは対照的に、最小限のオーバーヘッドで効率的な整数 GEMM を可能にする。
- 最大較正を用いたチャネルごとの重み量子化はBN折り畳み後でもネットワーク全体で精度を維持する;一方で、テンソルごとの量子化は複数のモデルで顕著な精度低下を引き起こす可能性がある。
- エントロピー法や高パーセンタイル(例: 99.99%)を用いた活性化の較正が、多くのネットワークで最良のPTQ精度をもたらす;最大較正は外れ値のあるネットワークでしばしば劣る。
- PTQ は多くのモデルでFP32に対する精度を1%以内に維持できるが、MobileNet、EfficientNet、Transformer、BERT などのネットワークは部分量子化やQAT の追加技術を必要とする。
- QAT はさらに精度を向上させ、PTQ の結果と同等またはそれを上回ることが多く、ファインチューニング後にはほとんどのネットワークがFP32ベースラインの1%以内に収まる。
- 部分量子化により最も感度の高い層の量子化を回避することで精度を回復できる場合がある;レンジを学習するQAT(PACT)はいくつかのケースでさらに効果を得られる。
- トレーニング中の活性化の学習レンジは、いくつかのモデルでPTQの結果を改善することができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。