Skip to main content
QUICK REVIEW

[論文レビュー] EIE: Efficient Inference Engine on Compressed Deep Neural Network

Song Han, Xingyu Liu|arXiv (Cornell University)|Feb 4, 2016
Advanced Neural Network Applications被引用数 140
ひとこと要約

EIE は重み共有を伴う圧縮され稀薄な DNN に対して推論を直接実行する特化型アクセラレータで、活性化のスパース性、静的重みスパース性、4-bit 重み共有を活用して CPU/GPU ベースラインより大きなエネルギーと速度の向上を達成します。

ABSTRACT

State-of-the-art deep neural networks (DNNs) have hundreds of millions of connections and are both computationally and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources and power budgets. While custom hardware helps the computation, fetching weights from DRAM is two orders of magnitude more expensive than ALU operations, and dominates the required power. Previously proposed 'Deep Compression' makes it possible to fit large DNNs (AlexNet and VGGNet) fully in on-chip SRAM. This compression is achieved by pruning the redundant connections and having multiple connections share the same weight. We propose an energy efficient inference engine (EIE) that performs inference on this compressed network model and accelerates the resulting sparse matrix-vector multiplication with weight sharing. Going from DRAM to SRAM gives EIE 120x energy saving; Exploiting sparsity saves 10x; Weight sharing gives 8x; Skipping zero activations from ReLU saves another 3x. Evaluated on nine DNN benchmarks, EIE is 189x and 13x faster when compared to CPU and GPU implementations of the same DNN without compression. EIE has a processing power of 102GOPS/s working directly on a compressed network, corresponding to 3TOPS/s on an uncompressed network, and processes FC layers of AlexNet at 1.88x10^4 frames/sec with a power dissipation of only 600mW. It is 24,000x and 3,400x more energy efficient than a CPU and GPU respectively. Compared with DaDianNao, EIE has 2.9x, 19x and 3x better throughput, energy efficiency and area efficiency.

研究の動機と目的

  • DRAM のエネルギーコストのため、組み込みハードウェア上で大規模 DNN を展開する際の課題に動機づける。
  • 大規模モデルをオンチップ SRAM に収めるための圧縮ベースのアプローチ(プルーニングと重み共有)を提案する。
  • 重み共有を用いた疎行列ベクトル乗算を加速するため、圧縮ネットワーク上で直接動作するアクセラレータ(EIE)を設計する。
  • 複数のベンチマークで CPU/GPU より顕著なエネルギーおよび性能向上を示す。

提案手法

  • 4-bit 重みと 4-bit インデックスを用いた interleaved compressed sparse column (CSC) 形式で圧縮 DNN の重み行列を表現する。
  • 活性化のスパース性と静的重みスパース性を活用するため、W の行を交互に配置してネットワークを複数の処理要素(PE)に分散する。
  • ゼロでない入力活性化をブロードキャストし、計算中に 4-bit 重みを 16-bit に展開してスケーリング付き乗加算を行う。
  • ロードバランスをとり、動的スパース性の活用を可能にするため、アクティベーション・キューと Leading Non-Zero Detection を実装する。
  • 計算とデータフローを調整するため、中央制御ユニット(CCU)と階層的な非ゼロ検出ネットワークを提供する。

実験結果

リサーチクエスチョン

  • RQ1圧縮された DNN を専門のハードウェア上で直接実行することで、どれくらいのエネルギーと性能の利点を得られるか?
  • RQ2アクセラレータは静的な重みのスパース性と動的な活性化のスパース性、そして重み共有の組み合わせを活用できるか?
  • RQ3疎で圧縮された DNN のためのスループットとエネルギー効率を最大化するための設計上のトレードオフ(データ表現、メモリレイアウト、並列化)とは何か?
  • RQ4圧縮モデルを動作させたとき、さまざまなネットワーク(AlexNet、VGG-16、NeuralTalk/LSTM)に対する EIE の CPU、GPU、モバイル GPU ベースラインとの比較はどうか?

主な発見

  • EIE は CPU、GPU、モバイル GPU に対して 189×、13×、307× のスピードアップを達成。
  • 圧縮ネットワークで 102 GOPS/s を提供し、非圧縮ネットワークでは 3 TOPS/s に相当し、AlexNet の FC 層で 600 mW の電力消費。
  • DaDianNao と比較して、EIE はスループット 2.9×、エネルギー効率 19×、面積効率 3×。
  • 全体のエネルギー効率の改善は、CPU、GPU、モバイルGPU に対してそれぞれ平均 24,000×、3,400×、2,700× の向上であり、チップ内 SRAM、スパース性、計算削減によって推進される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。