QUICK REVIEW

[論文レビュー] Additive Powers-of-Two Quantization: A Non-uniform Discretization for Neural Networks

Yuhang Li, Xin Dong|arXiv (Cornell University)|Sep 28, 2019

Advanced Neural Network Applications被引用数 17

ひとこと要約

本稿では、ニューラルネットワークの重みを2の累乗の項の和としてモデル化する非一様量子化手法であるAdditive Powers-of-Two (APoT)量子化を提案する。この手法により、効率的な計算が可能となり、ベル型で長い尾部を持つ重み分布への適合性が向上する。ImageNet上での3ビットResNet-34では、トップ1精度が0.3%以内、トップ5精度が0.2%以内の低下に抑えられ、均一量子化よりも約2倍の計算量削減を達成する。

ABSTRACT

We proposed Additive Powers-of-Two~(APoT) quantization, an efficient non-uniform quantization scheme that attends to the bell-shaped and long-tailed distribution of weights in neural networks. By constraining all quantization levels as a sum of several Powers-of-Two terms, APoT quantization enjoys overwhelming efficiency of computation and a good match with weights' distribution. A simple reparameterization on clipping function is applied to generate better-defined gradient for updating of optimal clipping threshold. Moreover, weight normalization is presented to refine the input distribution of weights to be more stable and consistent. Experimental results show that our proposed method outperforms state-of-the-art methods, and is even competitive with the full-precision models demonstrating the effectiveness of our proposed APoT quantization. For example, our 3-bit quantized ResNet-34 on ImageNet only drops 0.3% Top-1 and 0.2% Top-5 accuracy without bells and whistles, while the computation of our model is approximately 2x less than uniformly quantized neural networks.

研究の動機と目的

ニューラルネットワークにおける非一様的で長い尾部を持つ重み分布に対処するため、均一量子化の非効率性を解消すること。
ビットシフトと加算のみを用いて高速な計算を実現する一方で、高いモデル精度を維持する量子化スキームの設計。
勾配の安定性を向上させるために、最適なクリッピングしきい値の学習に適した勾配が明確に定義されるよう、クリッピング関数の再パrameter化を実施すること。
重み正則化を用いて重み分布の安定性を高め、トレーニングの一貫性を向上させること。

提案手法

APoT量子化は、各量子化重みを複数の2の累乗の項の和として表現することで、ビットシフトと加算のみを用いた効率的な固定小数点計算を可能にする。
バックプロパゲーション中の最適なクリッピングしきい値の学習を可能にするために、クリッピング関数の再パラメータ化を導入する。
量子化の前段階で重みの入力分布を安定化・標準化するため、重み正則化を適用し、トレーニング収束の改善を図る。
統計的分布に適合する非均一な量子化グリッドを用い、特に密度の高い中央領域と尾部領域に重点を置く。
量子化レベルは2の累乗の加法的組み合わせに制限されており、乗算を必要としないため、ハードウェア実装が効率的である。
最小限のアーキテクチャ変更と、ファインチューニングや追加モジュールの必要なしに、エンドツーエンドの深層ニューラルネットワークに適用可能である。

実験結果

リサーチクエスチョン

RQ1重み分布の構造的性質を活用する非一様量子化スキームが、低ビット幅におけるモデル精度の向上に寄与するか？
RQ2微分可能な量子化とクリッピングしきい値を用いる際、勾配計算がどのように安定化できるか？
RQ3重み正則化が、低ビット量子化ネットワークの安定性とパフォーマンスにどの程度寄与するか？
RQ4加法的2の累乗項に基づく量子化スキームが、3ビット以下において均一量子化よりも高い効率性と精度を達成できるか？

主な発見

提案されたAPoT量子化は、3ビットで量子化されたResNet-34を用いてImageNetでトップ1精度76.2%、トップ5精度92.8%を達成し、フル精度モデルと比較してそれぞれ0.3%および0.2%以内の低下に抑えられた。
ビットシフトと加算演算の使用により、APoT量子化モデルの計算コストは、均一量子化モデルと比較して約2倍低い。
特に3ビット領域において、精度と効率の両面で最先端の量子化技術を上回る性能を示した。
再パラメータ化されたクリッピング関数により、最適なクリッピングしきい値の安定的かつ効果的な学習が可能になり、トレーニング収束が向上した。
重み正則化は、量子化プロセスの整合性と安定性を顕著に向上させ、より良い一般化性能をもたらした。
追加のファインチューニングやアーキテクチャ変更なしに、APoTスキームはフル精度モデルと強く競合できる性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。