Skip to main content
QUICK REVIEW

[論文レビュー] Same, Same But Different - Recovering Neural Network Quantization Error Through Weight Factorization

Eldad Meller, Alexander M. Finkel’stein|arXiv (Cornell University)|Feb 5, 2019
Advanced Neural Network Applications被引用数 28
ひとこと要約

本稿では、逆比例重み因子分解を活用して、層間のチャネル動的範囲を均等化することで、ニューラルネットワークの量子化誤差を低減する前処理手法を提案する。低活動チャネルを増幅し、次の層で逆比例スケーリングで補正することで、量子化に起因する性能劣化を顕著に低減した。量子化感知学習や再学習を必要とせず、8ビット量子化でもMobileNetsで最先端の結果を達成した。

ABSTRACT

Quantization of neural networks has become common practice, driven by the need for efficient implementations of deep neural networks on embedded devices. In this paper, we exploit an oft-overlooked degree of freedom in most networks - for a given layer, individual output channels can be scaled by any factor provided that the corresponding weights of the next layer are inversely scaled. Therefore, a given network has many factorizations which change the weights of the network without changing its function. We present a conceptually simple and easy to implement method that uses this property and show that proper factorizations significantly decrease the degradation caused by quantization. We show improvement on a wide variety of networks and achieve state-of-the-art degradation results for MobileNets. While our focus is on quantization, this type of factorization is applicable to other domains such as network-pruning, neural nets regularization and network interpretability.

研究の動機と目的

  • エッジデバイスにデプロイされた深層ニューラルネットワークにおける低精度量子化に起因する性能劣化を是正すること。
  • ネットワークの関数に影響を与えないまま、重みの再スケーリングが可能な、これまで無視されてきたニューラルネットワーク重み因子分解の自由度を活用すること。
  • 各層内の出力チャネルの動的範囲を均等化することで、量子化ノイズを低減し、支配的チャネルがノイズ分布に与える影響を最小限に抑えること。
  • 再訓練や元のデータセットへのアクセスを必要とせず、迅速かつ効率的に量子化モデルをデプロイ可能にするための手法を提供すること。

提案手法

  • 逆比例スケーリング重み因子分解を提案:任意の層において、出力チャネルを要因Cでスケーリングし、次の層の対応する重みを逆比例してスケーリングすることで、ネットワーク関数を維持できる。
  • 低活動チャネルを支配的(最大活動)チャネルの動的範囲に一致させるための、グリーディで層単位の均等化アルゴリズムを導入。
  • 2段階の均等化プロセスを採用:まず1段階の均等化で、支配的範囲以下のチャネルを増幅し、次に最大30%の減衰を許容することで、高精度性能への歪みを回避。
  • 量子化に起因する重み分布のずれを是正するため、1000枚のラベルなし画像を用いた知識蒸留を実施し、バイアスを微調整。
  • チャネル単位のスケーリング戦略を採用し、標準的な8ビット整数量子化と互換性を持たせ、チャネルごとの量子化に伴うハードウェアおよびストレージのオーバーヘッドを回避。
  • 量子化の前処理ステップとして均等化を統合することで、既存の量子化パイプラインと互換性を持たせ、即時のデプロイが可能になった。

実験結果

リサーチクエスチョン

  • RQ1再訓練や学習データへのアクセスなしに、同等の重み因子分解を用いて量子化に起因する劣化を低減できるか?
  • RQ2層内での出力チャネルの動的範囲を均等化することで、重みおよび活性化量子化ノイズに対するロバスト性が向上するか?
  • RQ3グリーディで層単位の均等化戦略は、多様なネットワークアーキテクチャにわたる後量子化精度損失をどれほど低減できるか?
  • RQ4量子化感知学習やチャネルごとの量子化を必要とせず、均等化がMobileNetのような量子化モデルで最先端の性能を達成できるか?
  • RQ5重みおよび活性化量子化ノイズが異なる層に与える影響は何か?そして、その影響を均等化最適化に活用できるか?

主な発見

  • 1段階の均等化により、MobileNet V1-1.0の8ビット量子化下での精度劣化を7.89%から3.2%に低減し、2段階の均等化では1.3%まで低下した。
  • MobileNet V2-1.4では、バイアス微調整を伴う2段階均等化により、劣化を8.06%から0.55%まで低減し、最先端の結果を達成した。
  • ResNet-V1-152およびInception-V3でも、それぞれ0.62%および0.05%の劣化で競争力のある性能を達成した。
  • 本手法は既存の量子化方式と完全に互換性があり、再訓練を必要とせず、即時のモデルデプロイが可能である。
  • 1000枚のラベルなし画像を用いた知識蒸留により、量子化に起因する分布シフトが効果的に是正され、高精度性能が保持された。
  • チャネルごとの量子化のオーバーヘッドを回避しながら、計算コストを最小限に抑えつつ、既存手法を上回るか同等の結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。