QUICK REVIEW

[論文レビュー] Bayesian Bits: Unifying Quantization and Pruning

Mart van Baalen, Christos Louizos|arXiv (Cornell University)|May 14, 2020

Advanced Neural Network Applications参考文献 39被引用数 77

ひとこと要約

Bayesian Bits は、学習可能ゲートを用いた新しい残差量子化分解と勾配ベースの最適化によって混合精度量子化とプルーニングを共同学習し、ハードウェアに適したビット幅を実現するとともに、静的ビット幅のベースラインよりも精度と効率のトレードオフを改善します。

ABSTRACT

We introduce Bayesian Bits, a practical method for joint mixed precision quantization and pruning through gradient based optimization. Bayesian Bits employs a novel decomposition of the quantization operation, which sequentially considers doubling the bit width. At each new bit width, the residual error between the full precision value and the previously rounded value is quantized. We then decide whether or not to add this quantized residual error for a higher effective bit width and lower quantization noise. By starting with a power-of-two bit width, this decomposition will always produce hardware-friendly configurations, and through an additional 0-bit option, serves as a unified view of pruning and quantization. Bayesian Bits then introduces learnable stochastic gates, which collectively control the bit width of the given tensor. As a result, we can obtain low bit solutions by performing approximate inference over the gates, with prior distributions that encourage most of them to be switched off. We experimentally validate our proposed method on several benchmark datasets and show that we can learn pruned, mixed precision networks that provide a better trade-off between accuracy and efficiency than their static bit width equivalents.

研究の動機と目的

推論コストを joint pruning と mixed-precision quantization で削減する動機付け。
ハードウェアに優しい量子化分解を導入し、パワー・オブ・ツーのビット幅を露出する。
ビット幅とプルーニングを jointly 学習するためのベイズゲートと変分目的関数を開発する。
ゲートの学習を、STE に触発した勾配推定と閾値処理で実現する実用的な最適化スキームを提供する。
ベンチマークでの改善した精度/効率のトレードオフを実証し、エンドツーエンドおよびポストトレーニングのバリアントを示す。

提案手法

量子化を連続的な残差量子化へ分解し、ビット幅を倍増させる（2, 4, 8, 16, 32）。
残差を量子化し、それらを合計してより高精度の量子化値を形成する。
各残差に z のバイナリゲートを導入し、高ビット残差を加えるかを制御してゼロビットのプルーニングを可能にする。
ゲート学習を、低ビット幅を好む自己回帰事前分布と事後分布を伴う変分推論として位置づける。
高ビット残差の包含を抑制する L0 類似の正則化を持つ実用的な目的関数を導出し、勾配ベースの最適化のための hard-concrete 緩和を用いる。
メモリ管理のための勾配チェックポイント、入力に対する PACT ベースのクリッピング、丸めに対するバックプロパゲーションのための STE を用いた訓練を説明する。

実験結果

リサーチクエスチョン

RQ1残差ベースのハードウェアに優しい分解は、混合精度の量子化のためにすべてのパワーオブツーのビット幅を開示できるか？
RQ2残差に対する学習可能なゲーティングは、計算と精度のトレードオフを jointly pruning and quantizing で効果的に行えるか？
RQ3ベイズ/プリオリ正則化目的関数は、静的ビット幅ベースラインよりもタスク間でより良い精度–効率のトレードオフを生むか？
RQ4エンドツーエンドおよび標準的なベンチマークでポストトレーニング設定は実現可能か？

主な発見

方法	# bits W/A	Acc. (%)	Rel. GBOPs (%)
FP32	32/32	99.36	100
TWN	2/32	99.35	5.74
LR-Net	1/32	99.47	2.99
RQ	8/8	-	6.25
RQ	4/4	-	1.56
RQ	2/8	99.37	0.52
WAGE	2/8	99.60	1.56
DQ*	Mixed	-	0.48
DQ - restricted*	Mixed	-	0.54
Bayesian Bits μ=0.01	Mixed	99.30 ±0.03	0.36 ±0.01	93.23 ±0.10	0.51 ±0.03

Bayesian Bits は MNIST と CIFAR-10 のいくつかのベースラインより精度と計算効率（BOPs）とのトレードオフが良好である。
ImageNet の ResNet18 と MobileNetV2 では、Bayesian Bits は固定ビットのベースラインや他の量子化法と比較して有利な精度–BOP トレードオフを示す。
グローバル正則化パラメータ mu の変化はスパース性/ビット幅を制御し、高度に圧縮されたネットワークを一部の領域で精度を維持して得られる。
エンドツーエンドの微調整とポストトレーニングの混合精度量子化を競争力のある性能でサポートしている。
ゲートは解釈可能な挙動を示し、しばしば低ビット幅へプルーニングしつつ、最初/最後の層など重要な層を高精度に保つ。
このアプローチは、単一の確率的枠組みの下でプルーニングと量子化を統一し、実用的な最適化経路を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。