QUICK REVIEW

[論文レビュー] WRPN: Wide Reduced-Precision Networks

Asit Mishra, Eriko Nurvitadhi|arXiv (Cornell University)|Sep 4, 2017

Advanced Neural Network Applications参考文献 20被引用数 181

ひとこと要約

WRPN は幅広い層と低精度の活性化および重みで深層ネットを訓練・実行し、全精度ベースラインと同等またはそれ以上の精度を達成しつつ、メモリ、帯域幅、およびエネルギーを大幅に削減します。ハードウェアに配慮した量子化と AlexNet、ResNet-34、Inception-BN の変種での実績を示します。

ABSTRACT

For computer vision applications, prior works have shown the efficacy of reducing numeric precision of model parameters (network weights) in deep neural networks. Activation maps, however, occupy a large memory footprint during both the training and inference step when using mini-batches of inputs. One way to reduce this large memory footprint is to reduce the precision of activations. However, past works have shown that reducing the precision of activations hurts model accuracy. We study schemes to train networks from scratch using reduced-precision activations without hurting accuracy. We reduce the precision of activation maps (along with model parameters) and increase the number of filter maps in a layer, and find that this scheme matches or surpasses the accuracy of the baseline full-precision network. As a result, one can significantly improve the execution efficiency (e.g. reduce dynamic memory footprint, memory bandwidth and computational energy) and speed up the training and inference process with appropriate hardware support. We call our scheme WRPN - wide reduced-precision networks. We report results and show that WRPN scheme is better than previously reported accuracies on ILSVRC-12 dataset while being computationally less expensive compared to previously reported reduced-precision networks.

研究の動機と目的

視覚タスクのDNNを訓練/推論する際のメモリと計算効率の課題を動機づけ、活性化マップを主要なメモリフットプリントとして焦点化する。
活性化と重みの両方を削減しつつ、層の幅を広げて精度を維持するWRPNを提案する。
複数のアーキテクチャで ImageNet において広く低精度ネットがベースラインと同等以上の精度を達成できることを示す。
GPU、FPGA、ASIC でのハードウェア影響と潜在的な効率向上を評価する。

提案手法

活性化を各層で4-bitまたは2-bit、重みを2-bitまたは1-または4-bitに、単純なクリップと丸め方式で量子化する。
低精度による情報喪失を補うため、層あたりのフィルタマップ数（幅）を増やして精度を維持または改善する。
WRPN 量子化と幅を用いて端から端までネットワークを訓練し、AlexNet、ResNet-34、Inception-BN 変種を通じて全精度ベースラインと比較する。
量子化ノードを通じた逆伝播にはストレートスルー推定機（STE）を用い、k-bit 表現（k>1）には単純な最小-最大クリッピングと丸め、バイナリの場合には BWN 風の処理を行う。
FMA 操作数と活性化と重みのビット幅の和の積として計算コストを評価し、ベースライン FP32 の計算コストと比較する。

実験結果

リサーチクエスチョン

RQ1ネットワーク幅を拡大した場合、全精度を下回る活性化マップの精度を低減しても精度を損なわずに済むのか。
RQ2低精度のオペランドを用いながらネットワークを広げると、情報喪失を補い精度を維持または改善できるのか。
RQ3ImageNet での標準的な視覚アーキテクチャに対して WRPN の精度とハードウェア効率のトレードオフはどうなるのか。
RQ4ResNet-34 や Inception-BN のようなより深いネットワークでは WRPN の構成は AlexNet と比べてどのように機能するのか。
RQ5WRPN の低精度レジームの実際のハードウェア性能（GPU/FPGA/ASIC）にはどのような影響があるのか。

主な発見

4-bit の活性化と 2-bit の重みで、ネットワークを広げた場合に AlexNet のベースライン精度と同等を達成できる。
4-bit 活性化と 2-bit 重みでフィルタ数を2倍にすると、2x 広げた場合に AlexNet の精度が全精度ベースラインと同等になる（表は 4b A/2b W、2x-wide で同等精度を達成と示す）。
ResNet-34 では、2-bit 重みと 4-bit 活性化で 2x-wide 拡張でも同等精度を維持；4-bit A と 2-bit W でも同等を達成し、2-bit A and W（バイナリ/ターナリ）バリアントは幅を大きくすることでベースラインに近づく。
Batch-normalized Inception では、4-bit 活性化と 4-bit 重みを用い、フィルタバンクを倍増させるとほぼベースラインの精度（71.63 対 71.64）を達成。
WRPN による幅広化は通常生ネームルの計算量を増加させるが、低ビット幅のオペランドは大幅な効率化をもたらす。FPGA/ASIC は FP32 に対して有利な効率を提供（6.5x 〜 100x）、一方で GPU の利得はより控えめ。
より広いネットワークでの Binary/ternary 構成は ResNet-34 および AlexNet でほぼベースラインまたは最先端の精度を達成しつつ計算コストを大幅に削減。
ネットワーク全体を通じて、4-bit 活性化と 2-bit 重みは実用的で強力な動作点として浮上し、精度とハードウェアの単純さのバランスを取る（例: 3値重量を用いた乗算器なし実装の可能性を含む）。
WRPN は明確なハードウェア適合性を示す。FPGA と ASIC は大きな効率向上を示し、GPU は低精度のネイティブサポートが限られるため利得が限定的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。