QUICK REVIEW

[論文レビュー] Training and Inference with Integers in Deep Neural Networks

Shuang Wu, Guoqi Li|arXiv (Cornell University)|Feb 13, 2018

Advanced Neural Network Applications参考文献 24被引用数 200

ひとこと要約

WAGE は学習と推論の両方を低ビット幅整数へ離散化し、複数のデータセットで競争力の精度を持つ純粋な整数データフローを DNN に対して実現する。

ABSTRACT

Researches on deep neural networks with discrete parameters and their deployment in embedded systems have been active and promising topics. Although previous works have successfully reduced precision in inference, transferring both training and inference processes to low-bitwidth integers has not been demonstrated simultaneously. In this work, we develop a new method termed as "WAGE" to discretize both training and inference, where weights (W), activations (A), gradients (G) and errors (E) among layers are shifted and linearly constrained to low-bitwidth integers. To perform pure discrete dataflow for fixed-point devices, we further replace batch normalization by a constant scaling layer and simplify other components that are arduous for integer implementation. Improved accuracies can be obtained on multiple datasets, which indicates that WAGE somehow acts as a type of regularization. Empirically, we demonstrate the potential to deploy training in hardware systems such as integer-based deep learning accelerators and neuromorphic chips with comparable accuracy and higher energy efficiency, which is crucial to future AI applications in variable scenarios with transfer and continual learning demands.

研究の動機と目的

組込みAIシステム向けの低ビット幅整数ハードウェアでの学習を動機づけ、実現する。
順伝播と逆伝播の両方をサポートするフル整数データフロー (W,A,G,E) を開発する。
方向情報を保持しつつビット幅を制御するために、シフトベースの量子化と確率的丸めを提案する。
レイヤーごとの定数スケーリング係数を導入して浮動小数点バッチ正規化への依存を排除する。

提案手法

4つの量子化演算子 Q_W、Q_A、Q_G、Q_E が重み、活性化、勾配、誤差を低ビット幅整数に制約する。
飽和を伴うシフトベースの線形写像 Q(x,k) により一様量子化を実装する。
重みの増幅を抑制し、バッチ正規化を置換するための層ごとのシフトベースのスケーリング係数 alpha。
勾配更新に確率的丸めを適用してビット幅を制限しつつ方向情報を保持する。
学習はミニバッチ SGD をモーメンタムや適応学習率なしで行い、整数データフローの制約に合わせる。
デフォルトの 2-8-8-8 ビット構成で MNIST、SVHN、CIFAR-10、ImageNet の評価。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの訓練と推論を純粋な低ビット幅整数データフローで実行できるか。
RQ2標準データセット全体で精度を維持するために W, A, G, E の必要ビット幅はどれか。
RQ3バッチ正規化を定数スケーリング層に置換することが訓練と精度にどう影響するか。
RQ4整数ベースの訓練と逆伝播の量子化から生じる正則化効果は何か。

主な発見

手法	k_W	k_A	k_G	k_E	最適化	BN	MNIST	SVHN	CIFAR10	ImageNet
WAGE	2	8	8	8	SGD	✗	0.40	1.92	6.78	51.6/27.8

WAGE は推論時離散化ベースラインと同程度の精度を達成し、正則化効果を提供する。
2-8-8-8 ビット構成を使用すると推論時には三値重みを実現でき、訓練時には活性化、誤差、および勾配を 8-bit 表現のまま維持する。
MNIST、SVHN、CIFAR-10 では競争力のある誤差率を示す（例：MNIST 0.40%、SVHN 1.92%、CIFAR-10 6.78%）。
ImageNet の AlexNet では、WAGE のパターンはトップ1/トップ5誤差が約 51.6/27.8（2888 パターンの場合）および関連したバリアントを示し、大規模データセットへのスケーラビリティを示す。
ビット幅分析ではエラーのビット幅 k_E が約 4–8 ビットで CIFAR-10 に十分であり、勾配のビット幅 k_G が約 6–8 ビットで収束と精度のバランスを取る。
勾配の量子化は通信効率の高い訓練を可能にし、適切なハイパーパラメータ下で最終性能を犠牲にすることなくメモリ使用量を削減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。