QUICK REVIEW

[論文レビュー] Near-Lossless Post-Training Quantization of Deep Neural Networks via a Piecewise Linear Approximation

Jun Fang, Ali Shafiee|arXiv (Cornell University)|Jan 31, 2020

Advanced Neural Network Applications参考文献 5被引用数 10

ひとこと要約

本稿では、テンソル値の範囲を重複のない領域に分割し、等しい量子化レベルを割り当てることで、低ビット幅における精度を向上させる、後処理量子化手法であるPiecewise Linear Quantization (PWLQ) を提案する。量子化誤差を最小化するようにブレークポイントを最適化することで、PWLQ は画像分類、セマンティックセグメンテーション、オブジェクト検出の分野で、最小限の計算オーバーヘッドで最先端の性能を達成する。

ABSTRACT

Quantization plays an important role in the energy-efficient deployment of deep neural networks on resource-limited devices. Post-training quantization is highly desirable since it does not require retraining or access to the full training dataset. The well-established uniform scheme for post-training quantization achieves satisfactory results by converting neural networks from full-precision to 8-bit fixed-point integers. However, it suffers from significant performance degradation when quantizing to lower bit-widths. In this paper, we propose a piecewise linear quantization (PWLQ) scheme to enable accurate approximation for tensor values that have bell-shaped distributions with long tails. Our approach breaks the entire quantization range into non-overlapping regions for each tensor, with each region being assigned an equal number of quantization levels. Optimal breakpoints that divide the entire range are found by minimizing the quantization error. Compared to state-of-the-art post-training quantization methods, experimental results show that our proposed method achieves superior performance on image classification, semantic segmentation, and object detection with minor overhead.

研究の動機と目的

低ビット幅（例：4ビット以下）における均一な後処理量子化の性能低下を解消すること。
ベル型分布と長い尾部を示すテンソルに対して、均一な手法で不十分に扱われる状況を対応すること。
再訓練や完全な訓練データへのアクセスを回避しながら、高いモデル精度を維持する後処理量子化手法を開発すること。
各テンソルごとに非一様で区分的線形領域を設定し、最適なブレークポイント配置によって量子化誤差を最小化すること。
従来の後処理手法と比較して、画像分類、セマンティックセグメンテーション、オブジェクト検出という多様なビジョンタスクで優れた性能を達成すること。

提案手法

テンソル値の全範囲を、データ分布に基づいて重複のない領域に分割する。
各領域に等しい数の量子化レベルを割り当てることで、テンソル値の区分的線形近似を可能にする。
誤差関数の微分可能近似を用いて、量子化誤差を最小化するようにブレークポイントを最適化する。
再訓練や元の訓練データへのアクセスを必要とせず、推論時に量子化スキームを適用する。
ブレークポイントをテンソルごとに動的に決定することで、フル精度値を低ビット整数にマッピングする区分的線形関数を用いる。
領域数の制限と効率的な最適化手法の使用により、量子化精度と計算コストのバランスを取る。

実験結果

リサーチクエスチョン

RQ1区分的線形量子化スキームは、深層ニューラルネットワークにおける低ビット幅（特に4ビット以下）で、均一量子化を上回る性能を発揮できるか？
RQ2提案手法は、非一様でベル型の分布と長い尾部を示すテンソルをどのように処理するか？
RQ3最先端の後処理量子化技術と比較して、この手法はどの程度量子化誤差を低減するか？
RQ4提案フレームワークにおいて、量子化精度と計算オーバーヘッドのトレードオフはいかなるものか？
RQ5この手法は、画像分類、セマンティックセグメンテーション、オブジェクト検出といった多様なコンピュータビジョンタスクで高い性能を維持できるか？

主な発見

PWLQ は、画像分類、セマンティックセグメンテーション、オブジェクト検出のベンチマークにおいて、最先端の後処理量子化手法と比較して優れた精度を達成する。
最適化された非一様なブレークポイントにより、テンソル値の分布に適応することで、量子化誤差を顕著に低減する。
PWLQ は、4ビット以下という低ビット幅でも高いモデル性能を維持する。これは、均一量子化が通常顕著な精度低下を示す分野である。
計算オーバーヘッドはわずかであり、リソース制限のあるデバイスへの実装に実用的である。
区分的線形近似は、深層ニューラルネットワークの活性化関数に一般的な長尾分布を効果的に捉える。
再訓練や完全な訓練データへのアクセスを必要としないため、後処理量子化の利点を保持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。