QUICK REVIEW

[論文レビュー] Quantization for Rapid Deployment of Deep Neural Networks

Jun Haeng Lee, Sangwon Ha|arXiv (Cornell University)|Oct 12, 2018

Advanced Neural Network Applications参考文献 22被引用数 27

ひとこと要約

この論文は、微調整を必要とせず、全精度DNNを8ビット整数型アクセラレータに迅速にデプロイするためのチャネル別量子化を提案する。最大活性化値の代わりに統計的モーメント（例：ラプラス分布フィッティング）を用いてチャネルごとに分数長を適応的に設定することで、量子化誤差を低減し、わずかなキャリブレーションサンプルでほぼゼロの精度損失を達成する。

ABSTRACT

This paper aims at rapid deployment of the state-of-the-art deep neural networks (DNNs) to energy efficient accelerators without time-consuming fine tuning or the availability of the full datasets. Converting DNNs in full precision to limited precision is essential in taking advantage of the accelerators with reduced memory footprint and computation power. However, such a task is not trivial since it often requires the full training and validation datasets for profiling the network statistics and fine tuning the networks to recover the accuracy lost after quantization. To address these issues, we propose a simple method recognizing channel-level distribution to reduce the quantization-induced accuracy loss and minimize the required image samples for profiling. We evaluated our method on eleven networks trained on the ImageNet classification benchmark and a network trained on the Pascal VOC object detection benchmark. The results prove that the networks can be quantized into 8-bit integer precision without fine tuning.

研究の動機と目的

完全なトレーニング/検証データセットにアクセスできない状況下で、全精度DNNを低精度アクセラレータにデプロイする課題に対処すること。
チャネル間のダイナミックレンジの変動を考慮しない層別量子化が引き起こす精度の低下を克服すること。
大規模なプロファイリングや微調整の必要を最小限に抑えることで、最先端のDNNを迅速にデプロイ可能にする。
最大活性化値の代わりに高次モーメントを活用することで、量子化に必要なキャリブレーションサンプル数を削減すること。

提案手法

各チャネルの動的レンジに基づいて独立に分数長を決定するチャネル別量子化を導入し、層ごとに同一の分数長を適用するのではなく、チャネル単位で最適化する。
最大値ベースの量子化を、統計的推定（例：ラプラス、コーシー、または確率密度関数(PDF)に配慮したフィッティング）に置き換え、少ないサンプル数で最適な量子化パラメータを推定する。
統計的特徴（例：n次モーメント）を用いて、各チャネルごとに最良の確率分布モデルを選択し、量子化精度を向上させる。
アクティベーションおよび重みの両方をチャネル単位で8ビット線形量子化し、情報損失を最小限に抑えつつ、ハードウェアコストを低く保つ。
各チャネルの統計的プロファイルに基づいて、最適な確率分布モデルを選択するための軽量な分類器を実装する。
完全なデータセットへのアクセスを避け、代表的な画像の少数で十分なキャリブレーションを実施する。

実験結果

リサーチクエスチョン

RQ1層別量子化と比較して、チャネル別量子化は現代のDNNにおける8ビット量子化における精度損失を低減できるか？
RQ2統計的モーメント推定（例：ラプラス、コーシー）は、最大値プロファイリングに代わって、必要なキャリブレーションサンプル数をどの程度削減できるか？
RQ3確率密度関数(PDF)に配慮した選択戦略は、チャネルごとのアクティベーション分布をより正確にモデル化することで、量子化精度を向上させられるか？
RQ4少数のサンプルでのキャリブレーションのみで、微調整なしに8ビット量子化でほぼゼロの精度損失を達成できるか？

主な発見

提案手法のチャネル別量子化により、12のネットワークのうち11つで精度損失が1%ポイント未満に抑えられ、ImageNet上の最先端モデルを含む。
Inception-v3では、ラプラスベースの手法が100サンプルのキャリブレーションで精度が安定化したが、MAX手法ははるかに多くのサンプルが必要だった。
Pascal VOCオブジェクト検出のYOLO-v2では、8ビット量子化後、本手法で平均AP損失が0.14%に抑えられたのに対し、層別量子化では2.50%の損失が生じた。
PDFに配慮した手法はYOLO-v2で0.38%の平均AP損失を達成し、単純な最大値ベース手法に比べて分布に配慮した量子化の利点を示した。
本手法により、微調整を必要とせず、数百程度のキャリブレーションサンプルで全精度DNNを8ビット整数型アクセラレータにデプロイ可能となった。
最大値の代わりに統計的モーメントを用いることで、必要なキャリブレーションサンプル数を削減しながら、量子化精度を維持または向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。