QUICK REVIEW

[論文レビュー] Fighting Quantization Bias With Bias

Alexander M. Finkel’stein, Uri Almog|arXiv (Cornell University)|Jun 7, 2019

Advanced Neural Network Applications参考文献 29被引用数 20

ひとこと要約

この論文は、MobileNetのような軽量DNNにおける低精度量子化における性能低下の主な原因として、特に小規模層アーキテクチャにおける不均衡な量子化誤差に起因する平均活性化シフト（MAS）を特定する。2つの効率的な事後学習手法、反復的バイアス補正（IBC）とバイアス微調整（BFT）を提案し、チャネルごとのバイアス項を調整することでMASを補正する。最小限のデータと計算量で、量子化に注意を払った訓練に近い精度を達成し、MobileNet-v1/v2で1%の劣化に抑え、コストの僅か数分の1でSOTAを達成する。

ABSTRACT

Low-precision representation of deep neural networks (DNNs) is critical for efficient deployment of deep learning application on embedded platforms, however, converting the network to low precision degrades its performance. Crucially, networks that are designed for embedded applications usually suffer from increased degradation since they have less redundancy. This is most evident for the ubiquitous MobileNet architecture which requires a costly quantization-aware training cycle to achieve acceptable performance when quantized to 8-bits. In this paper, we trace the source of the degradation in MobileNets to a shift in the mean activation value. This shift is caused by an inherent bias in the quantization process which builds up across layers, shifting all network statistics away from the learned distribution. We show that this phenomenon happens in other architectures as well. We propose a simple remedy - compensating for the quantization induced shift by adding a constant to the additive bias term of each channel. We develop two simple methods for estimating the correction constants - one using iterative evaluation of the quantized network and one where the constants are set using a short training phase. Both methods are fast and require only a small amount of unlabeled data, making them appealing for rapid deployment of neural networks. Using the above methods we are able to match the performance of training-based quantization of MobileNets at a fraction of the cost.

研究の動機と目的

軽量DNN、特にMobileNetにおける低精度量子化における性能低下の根本原因を特定すること。
小規模層部品（例：深度可分畳み込み）を備えたアーキテクチャが、他のものよりも顕著に量子化誤差に苦しむ理由を調査すること。
完全な再訓練や元のデータセットへのアクセスなしに、平均活性化シフト（MAS）を補正する事後学習手法を開発すること。
バイアス項の補正が、複数のアーキテクチャにわたる量子化に起因する性能低下を低減する効果を評価すること。
エッジデプロイメントに適した、量子化に注意を払った訓練の高速でデータ効率の良い代替手法を提供すること。

提案手法

論文は、特にパラメータ数が少ない層（例：深度可分畳み込み）において顕著な非一様で不均衡な量子化丸め誤差に起因する平均活性化シフト（MAS）を特定する。
バイアスの加法的性質を活用し、各チャネルの加法的バイアス項に定数補正を加えることでMASを補正する。
2つの手法を導入する：反復的バイアス補正（IBC）は、少量のラベルなしテスト画像を用いた推論により補正定数を推定する。バイアス微調整（BFT）は、バイアスパラメータのみを短時間の勾配ベースの微調整で最適化する。
IBCは、フル精度ネットワークと量子化ネットワークの間での活性化後の平均値の比較を用いて補正値を計算する。BFTは、1K枚のラベルなし画像を用い、標準的な最適化アルゴリズムと学習率スケジュールを用いる。
両手法とも、バッチ正規化を統合済みの8ビット整数量子化方式を採用し、ハードウェア互換性を確保する。
本手法は、ImageNetで学習済みのモデル（MobileNet-v1、MobileNet-v2、Inception-v1）を対象とし、先行SOTA研究と同一の8ビット量子化設定で評価される。

実験結果

リサーチクエスチョン

RQ1MobileNetのような軽量DNNにおける低精度量子化における顕著な性能低下の原因は何ですか？
RQ2小規模層部品（例：深度可分畳み込み）を備えたアーキテクチャが、他のものよりも量子化誤差に著しく苦しむのはなぜですか？
RQ3平均活性化シフト（MAS）は不均衡な量子化丸め誤差に起因するものであり、低精度推論における主要な誤差要因であると特定できますか？
RQ4バイアス項の変更のみでMASを効果的に補正できますか？
RQ5事後学習によるバイアス補正手法は、最小限のデータと計算量で、量子化に注意を払った訓練と同等の性能を達成できますか？

主な発見

論文は、8ビット量子化されたMobileNet-v1およびv2における性能低下の主な原因として、平均活性化シフト（MAS）を特定し、特にパラメータ数が少ない層（例：深度可分畳み込み）における非一様な量子化誤差に起因することを示す。
反復的バイアス補正（IBC）は、MobileNet-v1で1.0%、MobileNet-v2で1.1%の劣化に低減し、完全な量子化に注意を払った訓練と同等の性能を達成する。
バイアス微調整（BFT）は、MobileNet-v1で1.0%、MobileNet-v2で1.2%の劣化を達成し、完全な量子化に注意を払った訓練によるSOTA結果と同等の性能を示す。
BFTにチャネル等化を組み合わせることで、MobileNet-v2の精度は71.1%（v2-1.0）および74.3%（v2-1.4）に向上し、量子化モデルにおけるSOTAパフォーマンスを達成する。
IBCはわずか8枚のラベルなし画像と2〜3分の実行時間で実行可能であり、BFTは1K枚の画像を用い、1つのGPUで約20分で実行可能で、完全な量子化に注意を払った訓練に比べてはるかに高速かつ軽量である。
手法はアーキテクチャにかかわらず安定しており、Inception-v1に対しても同様の改善を示し、MASがMobileNetに限らず一般化された現象であることを確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。