QUICK REVIEW

[論文レビュー] RAPIDNN: In-Memory Deep Neural Network Acceleration Framework

Mohsen Imani, Mohammad Samragh|arXiv (Cornell University)|Jun 15, 2018

Advanced Memory and Neural Computing参考文献 68被引用数 47

ひとこと要約

RAPIDNNはDNN計算をメモリ内で実行するよう再解釈し、コードブックベース表現とルックアップテーブルブロックを用いてメモリ中心の加速器で掛け算、加算、活性化、プーリングをその場で実行し、品質損失を最小に抑えつつ大幅なエネルギーと速度の向上を達成する。

ABSTRACT

Deep neural networks (DNN) have demonstrated effectiveness for various applications such as image processing, video segmentation, and speech recognition. Running state-of-the-art DNNs on current systems mostly relies on either generalpurpose processors, ASIC designs, or FPGA accelerators, all of which suffer from data movements due to the limited onchip memory and data transfer bandwidth. In this work, we propose a novel framework, called RAPIDNN, which processes all DNN operations within the memory to minimize the cost of data movement. To enable in-memory processing, RAPIDNN reinterprets a DNN model and maps it into a specialized accelerator, which is designed using non-volatile memory blocks that model four fundamental DNN operations, i.e., multiplication, addition, activation functions, and pooling. The framework extracts representative operands of a DNN model, e.g., weights and input values, using clustering methods to optimize the model for in-memory processing. Then, it maps the extracted operands and their precomputed results into the accelerator memory blocks. At runtime, the accelerator identifies computation results based on efficient in-memory search capability which also provides tunability of approximation to further improve computation efficiency. Our evaluation shows that RAPIDNN achieves 68.4x, 49.5x energy efficiency improvement and 48.1x, 10.9x speedup as compared to ISAAC and PipeLayer, the state-of-the-art DNN accelerators, while ensuring less than 0.3% of quality loss.

研究の動機と目的

IoTとエッジデバイスのDNN推論におけるデータ移動とメモリボトルネックの低減を動機づける。
エネルギー効率と速度を改善するために、コアDNN演算をメモリ内で実行するデジタルでメモリ中心のアクセラレータを導入する。
メモリ内処理と互換性のある表現へDNNモデルを再解釈するフレームワークを開発し、精度低下を制御する。
効率的なルックアップのために重みと活性化をメモリベースのテーブルへマッピングするソフトウェアとハードウェアの共設計手法を提供する。

提案手法

DNN計算を四つのメモリ適合操作の連続へ変換する：掛け算、加算、活性化、プーリング。
重みと入力の代表的コードブックを作成するためにk-meansクラスタリングを用い、掛け算のインメモリルックアップを可能にする。
演算子の多層（木構造ベース）エンコーディングを用いて精度とメモリ/計算コストのトレードオフを図る；掛け算をクロスバーに格納された事前計算済みテーブルへオフロードする。
活性化関数とエンコーディング/プーリングを、ルックアップテーブルとして動作するアソシエィティブメモリブロックでモデル化し、アナログ計算経路を用いずに完全なメモリ内実行を実現する。
再解釈されたネットワークを対象誤差許容度を満たすよう訓練し、精度とメモリテーブルサイズのバランスを取りつつ反復的に改良する。
重みの加算と活性化/プーリングのためにクロスバー記憶を備えたRNA（ resistive neural accelerator）ブロックアーキテクチャを用いる。

実験結果

リサーチクエスチョン

RQ1DNN計算（掛け算、加算、活性化、プーリング）を主にメモリ内で動作させるようどのように変換できるか。
RQ2推論精度を保ちながら、インメモリ計算をコンパクトにするクラスタリングとエンコーディング戦略は何か。
RQ3デジタル、メモリスタ基盤のアクセラレータはアナログ-デジタル変換や多段階のメモリストを必要とせず、全てのコアDNN演算を実行できるか。
RQ4標準的なDNNをインメモリ処理に再解釈する際の精度とエネルギー/速度のトレードオフは、畳み込み、全結合、プーリングといった一般的な層タイプでどうなるか。

主な発見

RAPIDNNは評価済みワークロードにおいてISAACと比較して最大68.4×のエネルギー効率向上と48.1×の速度アップを達成；PipeLayerと比較して最大49.5×のエネルギーと10.9×の速度向上。
フレームワークは6つのDNNアプリケーションで0.5%未満の品質低下を維持。
多層コードブックとオフラインクラスタリングによるエンコーディングは、信頼できない多層メモリストに依存せず、インメモリ掛け算と活性化を高精度で実現。
全てのコア演算（掛け算、加算、活性化、プーリング）はメモリブロック内で実現され、複雑なADC/DAC経路を回避し、スケーラブルなデジタル計算を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。