Skip to main content
QUICK REVIEW

[論文レビュー] Searching for Low-Bit Weights in Quantized Neural Networks

Zhaohui Yang, Wang, Yunhe|arXiv (Cornell University)|Sep 18, 2020
Advanced Neural Network Applications参考文献 52被引用数 35
ひとこと要約

この論文は、低ビット重量を離散値の確率分布として表現することで量子化ニューラルネットワークを訓練する微分可能な重み探索法を提案し、微分不可な量子化の勾配推定なしにエンドツーエンドの最適化を可能にする。

ABSTRACT

Quantized neural networks with low-bit weights and activations are attractive for developing AI accelerators. However, the quantization functions used in most conventional quantization methods are non-differentiable, which increases the optimization difficulty of quantized networks. Compared with full-precision parameters (i.e., 32-bit floating numbers), low-bit values are selected from a much smaller set. For example, there are only 16 possibilities in 4-bit space. Thus, we present to regard the discrete weights in an arbitrary quantized neural network as searchable variables, and utilize a differential method to search them accurately. In particular, each weight is represented as a probability distribution over the discrete value set. The probabilities are optimized during training and the values with the highest probability are selected to establish the desired quantized network. Experimental results on benchmarks demonstrate that the proposed method is able to produce quantized neural networks with higher performance over the state-of-the-art methods on both image classification and super-resolution tasks.

研究の動機と目的

  • メモリと計算効率のための低ビット重みを持つ量子化ネットを動機付ける。
  • 非微分可能な量子化関数から生じる最適化の課題に対処する。
  • エンドツーエンドで学習する微分可能な重み探索フレームワークを提案する。
  • 訓練(連続)と推論(離散)間の量子化ギャップを縮小する。
  • 画像分類と超解像のベンチマークで精度の改善を実証する。

提案手法

  • 各重みを低ビット値の集合に対する確率分布として表現する。
  • 連続的な補助テンソル A を用いて、値ごとの softmax(Eq. 5)で分布を学習する。
  • 訓練時には期待値連続重み W_c を W_c = sum_i P_i v_i(Eq. 6)として計算し、推論時には最大確率値を選択する(Eq. 7)。
  • 勾配は A に対して計算され、量子化関数の勾配推定を回避する。
  • 分布をシャープにし、量子化ギャップを縮小するために温度を徐々に低下させる(Temperature Limit Theorem)。
  • 連続的な訓練出力と離散的な推論出力の統計を整合させるために State Batch Normalization(SBN)を導入する。

実験結果

リサーチクエスチョン

  • RQ1離散的な低ビット重み値に対する微分可能な緩和が、STEベースの勾配推定を用いずに量子化ネットワークのエンドツーエンド最適化を可能にするか。
  • RQ2温度を徐々に下げ、State Batch Normalization を使用することが、量子化ギャップを縮小し、分類および超解像タスクの精度を改善するか。
  • RQ3提案された SLB 法は、さまざまなビット幅とアーキテクチャにおいて、最先端の量子化法と比較してどう機能するか。
  • RQ4学習された重み分布は、画像分類用の CNN と超解像モデルの両方で有効か。

主な発見

  • CIFAR-10 の ResNet および VGG-Small バックボーンで、複数のビット幅設定においていくつかの最先端量子化法より高い精度を達成。
  • ImageNet (ILSVRC2012) の ResNet18 では、SLB の 1-bit 重みとアクティベーションで Top-1 61.3%、Top-5 83.1% を達成し、いくつかのベースラインを上回る。
  • SLB は 1/1、1/2、1/4、1/8、1/32 の構成で一貫して結果を改善し、2/2、2/4、2/8、2/32、4/4、4/8、4/32 にもスケールする。
  • 超解像実験では、スケール因子 2 および 3 で DoReFa より高い PSNR を達成し、フル精度に近い結果となる。
  • アブレーションでは、Discrete 重みを使用する場合でも State Batch Normalization が性能を維持するのに寄与することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。