[論文レビュー] Mixed Low-precision Deep Learning Inference using Dynamic Fixed Point
本稿では、微小な精度損失で事前学習済みの全精度ディープラーニングモデルを低精度推論に変換するクラスタベースの量子化手法を提案する。フィルタを共有スケーリング要因を持つクラスタにグループ化することで、効率的な8ビット整数推論を可能にし、画像分類のImageNetで三値重み(全精度比で6%以内)で71.8%のTop-1精度、4ビット重みでは76.3%の精度を達成。乗算演算の85%しか使用せず、16倍の性能向上を実現した。
We propose a cluster-based quantization method to convert pre-trained full precision weights into ternary weights with minimal impact on the accuracy. In addition, we also constrain the activations to 8-bits thus enabling sub 8-bit full integer inference pipeline. Our method uses smaller clusters of N filters with a common scaling factor to minimize the quantization loss, while also maximizing the number of ternary operations. We show that with a cluster size of N=4 on Resnet-101, can achieve 71.8% TOP-1 accuracy, within 6% of the best full precision results while replacing ~85% of all multiplications with 8-bit accumulations. Using the same method with 4-bit weights achieves 76.3% TOP-1 accuracy which within 2% of the full precision result. We also study the impact of the size of the cluster on both performance and accuracy, larger cluster sizes N=64 can replace ~98% of the multiplications with ternary operations but introduces significant drop in accuracy which necessitates fine tuning the parameters with retraining the network at lower precision. To address this we have also trained low-precision Resnet-50 with 8-bit activations and ternary weights by pre-initializing the network with full precision weights and achieve 68.9% TOP-1 accuracy within 4 additional epochs. Our final quantized model can run on a full 8-bit compute pipeline, with a potential 16x improvement in performance compared to baseline full-precision models.
研究の動機と目的
- ディープラーニング推論の計算コストを顕著な精度損失なしに低減すること。
- 混合低精度計算を用いて完全な8ビット整数推論パイプラインを実現すること。
- 動的固定小数点クラスタリングにより、重みおよび活性化表現における量子化誤差を最小限に抑えること。
- 低精度推論におけるクラスタサイズ、パフォーマンス、精度のトレードオフを調査すること。
- 事前学習済みモデルの再訓練を最小限または一切行わずに高い精度を達成すること。
提案手法
- フィルタをサイズNのクラスタにグループ化し、各クラスタに共有スケーリング要因を適用することで量子化誤差を低減する。
- 動的固定小数点表現を用いて重みを三値または4ビットに量子化し、同時に活性化を8ビット固定小数点に制約する。
- 出力特徴マップに同じ寄与をもたらすフィルタを静的クラスタリングでグループ化し、畳み込み演算を簡略化する。
- クラスタ内での8ビット乗算を8ビット累積に置き換えることで、計算複雑性を低減する。
- 学習率1e-4を用いて、低精度重みと8ビット活性化を用いて事前学習済みの全精度モデルを微調整する。
- 全精度重みで初期化された低精度ネットワークにバッチ正規化を適用し、学習の安定化を図る。
実験結果
リサーチクエスチョン
- RQ1事前学習済みディープネットワークを8ビット未満の精度に量子化しても、精度の著しい低下を伴わずに行えるか?
- RQ2クラスタサイズが計算効率とモデル精度のトレードオフに与える影響は何か?
- RQ3ネットワークの再訓練なしに、低精度推論でSOTAに近い精度を達成できるか?
- RQ4動的固定小数点クラスタリングが低精度推論における量子化誤差に与える影響は何か?
- RQ5最小限のパフォーマンスペナルティで完全な8ビット整数推論パイプラインを実現できるか?
主な発見
- ResNet-101でクラスタサイズN=4を用いた場合、三値重みを使用して71.8%のTop-1精度を達成。全精度ベースライン比で6%以内の精度損失にとどまった。
- 同じクラスタサイズで4ビット重みを使用した場合、76.3%のTop-1精度を達成。全精度結果比で2%以内の精度損失にとどまった。
- N=64の場合、乗算の約98%が8ビット累積に置き換えられたが、精度が著しく低下し、再訓練が必要となった。
- 8ビット活性化と2ビット重みを用いて、事前初期化された低精度ResNet-50をわずか4エポック微調整したところ、68.9%のTop-1精度を達成した。
- 本手法により完全な8ビット整数推論パイプラインが実現可能であり、パフォーマンスおよびエネルギー効率で最大16倍の向上が見込まれる。
- 小さなクラスタ(N=4)は精度を最大化するが、大きなクラスタ(N=64)は一般用途ハードウェア上でパフォーマンスを優先するが、精度を犠牲にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。