Skip to main content
QUICK REVIEW

[論文レビュー] Effective Quantization Methods for Recurrent Neural Networks

Qinyao He, He Wen|arXiv (Cornell University)|Nov 30, 2016
Advanced Neural Network Applications参考文献 20被引用数 65
ひとこと要約

本論文は、LSTMおよびGRUセルにおける重みと活性化の効果的な低ビット量子化を可能にする、再帰的ニューラルネットワーク(RNNs)のための新規量子化フレームワークを提案する。ゲートとインターリンクの構造的変更に加え、パラメータ依存のしきい値を用いたバランスの取れた量子化を導入することで、2ビット重みでも最先端の性能を達成し、PTBおよびIMDBデータセットにおいて先行研究を上回る結果を得た。

ABSTRACT

Reducing bit-widths of weights, activations, and gradients of a Neural Network can shrink its storage size and memory usage, and also allow for faster training and inference by exploiting bitwise operations. However, previous attempts for quantization of RNNs show considerable performance degradation when using low bit-width weights and activations. In this paper, we propose methods to quantize the structure of gates and interlinks in LSTM and GRU cells. In addition, we propose balanced quantization methods for weights to further reduce performance degradation. Experiments on PTB and IMDB datasets confirm effectiveness of our methods as performances of our models match or surpass the previous state-of-the-art of quantized RNN.

研究の動機と目的

  • 2ビットの重みと活性化を含む低ビット量子化RNNにおける顕著な性能低下を是正すること。
  • 極めて低いビット幅制約下でもモデル容量を維持できる、量子化に配慮したLSTMおよびGRUセルの構造設計。
  • パラメータに依存するしきい値を用いて、対称的かつ均等に分布する量子化重みを生成するバランスの取れた量子化手法の開発。
  • バランスの取れた量子化が、特に2ビット精度において、非バランスな対応手法に比べて顕著に性能を向上させることの実証。
  • TensorFlowを用いた量子化RNNの学習を可能にするオープンソースコードの公開により、再現性とさらなる研究の促進。

提案手法

  • 重みと活性化に一様なkビット量子化を適用し、量子化前に値を[0,1]範囲にアフィン変換する。
  • 学習中に非微分可能な量子化関数を通過する勾配を伝播させるために、ストレートスラッシュ推定(STE)を用いる。
  • 特に2ビットの場合に有効な、パラメータ依存のしきい値を量子化プロセスに導入し、量子化重みの分布をバランスさせる。
  • 数値安定性を維持するために、ゲート計算とインターリンク接続を量子化することでLSTMおよびGRUセルの内部構造を変更する。
  • 勾配爆発を防ぐために、tanh活性化関数や重み減衰などの正則化および正規化技術を適用する。
  • ADAM最適化アルゴリズムを用いて固定のハイパーパrameterでモデルを学習し、標準的なNLPベンチマーク(PTBおよびIMDB)で評価する。

実験結果

リサーチクエスチョン

  • RQ12ビットの重みと活性化において、顕著な性能低下を伴わずにRNNの有効な量子化が達成可能か?
  • RQ2パラメータ依存のしきい値によって誘導される重みのバランスの取れた量子化は、非バランスな量子化と比較してモデルの精度にどのように影響するか?
  • RQ3LSTMおよびGRUセルにどのような構造的変更を加えることで、低ビット量子化下での耐性が向上するか?
  • RQ4提案手法は、Penn TreebankやIMDBなどの標準NLPベンチマークで、先行の最先端量子化RNNを上回る性能を示すか?
  • RQ5提案された量子化フレームワークは、他のRNNアーキテクチャに一般化可能か、また4ビットを超えるより高いビット幅へも拡張可能か?

主な発見

  • 提案されたバランスの取れた量子化手法により、性能低下が顕著に軽減され、LSTMでは2ビット重みと3ビット活性化でPenn Treebankデータセットで146のパープレキシティ(PPW)を達成した。
  • 2ビット重みと2ビット活性化の場合、GRUモデルはPTBで150 PPWを達成し、先行の最先端手法を74 PPWも上回った。
  • IMDB文書分類タスクでは、2ビット重みと2ビット活性化のGRUモデルが87.08%の精度を達成し、非バランスな対応手法を0.86ポイント上回った。
  • 4ビット量子化モデルは、32ビットのフル精度モデルと同等またはわずかに優れた性能を示し、GRUではPTBで104 PPW、LSTMでは114 PPWを記録した。
  • 1ビット重みのバイナリゼーションモデルは収束はするが、顕著な性能低下を示し、アーキテクチャの変更なしにはRNNにおける1ビット量子化は依然として困難であることが示された。
  • 結果から、バランスの取れた量子化は特に低ビット幅において顕著に有効であり、2ビット精度におけるバランスと非バランス手法の性能差が拡大することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。