QUICK REVIEW

[論文レビュー] PUMA: A Programmable Ultra-efficient Memristor-based Accelerator for Machine Learning Inference

Aayush Ankit, Izzat El Hajj|arXiv (Cornell University)|Jan 29, 2019

Advanced Memory and Neural Computing被引用数 30

ひとこと要約

PUMA は、独自の命令セットアーキテクチャ（ISA）を介してアナログメモリストラップクロスバーとデジタル処理ユニットを統合する、プログラマブルで超効率的なメモリストラップベースの機械学習推論用アクセラレータである。一般向けの機械学習ワークロードを実行しつつ、メモリ内計算の効率性を維持することで、最先端のGPUと比較して最大2,446倍のエネルギー効率と66倍の遅延改善を達成する。

ABSTRACT

Memristor crossbars are circuits capable of performing analog matrix-vector multiplications, overcoming the fundamental energy efficiency limitations of digital logic. They have been shown to be effective in special-purpose accelerators for a limited set of neural network applications. We present the Programmable Ultra-efficient Memristor-based Accelerator (PUMA) which enhances memristor crossbars with general purpose execution units to enable the acceleration of a wide variety of Machine Learning (ML) inference workloads. PUMA's microarchitecture techniques exposed through a specialized Instruction Set Architecture (ISA) retain the efficiency of in-memory computing and analog circuitry, without compromising programmability. We also present the PUMA compiler which translates high-level code to PUMA ISA. The compiler partitions the computational graph and optimizes instruction scheduling and register allocation to generate code for large and complex workloads to run on thousands of spatial cores. We have developed a detailed architecture simulator that incorporates the functionality, timing, and power models of PUMA's components to evaluate performance and energy consumption. A PUMA accelerator running at 1 GHz can reach area and power efficiency of $577~GOPS/s/mm^2$ and $837~GOPS/s/W$, respectively. Our evaluation of diverse ML applications from image recognition, machine translation, and language modelling (5M-800M synapses) shows that PUMA achieves up to $2,446\ imes$ energy and $66\ imes$ latency improvement for inference compared to state-of-the-art GPUs. Compared to an application-specific memristor-based accelerator, PUMA incurs small energy overheads at similar inference latency and added programmability.

研究の動機と目的

既存のメモリストラップベースのアクセラレータが抱えるプログラマビリティの制限とワークロード特化の課題を克服すること。
CNN、RNN、トランスフォーマーを含む多様な機械学習推論ワークロードを、1つのアクセラレータアーキテクチャで効率的に実行できること。
メモリストラップクロスバーの高いエネルギー効率と高密度記憶特性を維持しつつ、汎用計算能力を追加すること。
複雑なワークロードの面積および消費電力オーバーヘッドを最小限に抑えるために、専用のISA、コンパイラ、マイクロアーキテクチャを共同設計すること。
プログラマブルなメモリストラップアクセラレータが、エネルギー効率および遅延の点でGPUやASICを上回ることを実証すること。

提案手法

PUMA は、数千のプロセッシングコアを備えた空間アーキテクチャを採用しており、各コアは行列-ベクトル乗算用のメモリストラップクロスバーと、スカラおよびベクトル演算用のデジタル実行ユニットを統合している。
独自の命令セットアーキテクチャ（ISA）により、ML演算の圧縮されたエンコードが可能となり、デコーダの複雑さが低減され、多様なニューラルネットワークタイプのサポートが可能になる。
時間的SIMDユニットとROM埋め込みRAMを用いて、ReLU やソフトマックスなどの線形および超越関数を効率的に実行する。
PUMA コンパイラは、グラフ分割、命令スケジューリング、レジスタ割り当てを実行し、大規模モデル向けの最適化コードを生成する。
詳細なアーキテクチャシミュレータを用いて、タイミング、消費電力、面積をモデル化し、多様なワークロードにおける性能とエネルギー効率を評価する。
製造可能性と高密度記憶を確保するため、1T1Rメモリストラップ構成を採用。データ移動は柔軟な制御ユニットにより最適化されている。

実験結果

リサーチクエスチョン

RQ1メモリストラップベースのアクセラレータは、幅広い機械学習推論ワークロードをサポートしつつ、高いエネルギー効率を達成できるか？
RQ2メモリストラップクロスバーの本質的なエネルギー効率と記憶密度を損なわずに、プログラマビリティを追加する方法は何か？
RQ3メモリストラップクロスバーに汎用実行ユニットを追加することで、混合精度および非MVM演算に対して生じる性能およびエネルギーオーバーヘッドはどの程度か？
RQ4独自のISAとコンパイラは、複雑なニューラルネットワークを空間的メモリストラップアクセラレータに効率的にマッピングできるか？
RQ5プログラマブルなメモリストラップアクセラレータは、エネルギー遅延積とスケーラビリティの観点から、GPU やアプリケーション特化ASICと比較してどの程度優れているか？

主な発見

PUMA は1 GHzで577 GOPS/s/mm²の面積効率と837 GOPS/s/Wのパワー効率を達成し、デジタルアクセラレータを大きく上回る。
画像認識、機械翻訳、言語モデリングワークロード（500万～8億シンプス）において、PUMA は最先端のGPUと比較して最大2,446倍のエネルギー消費削減を実現した。
PUMA は、高密度記憶と低面積オーバーヘッドを維持しながら、GPUと比較して推論遅延を最大66倍まで短縮した。
アプリケーション特化型メモリストラップアクセラレータと比較して、PUMA は類似した遅延でわずかなエネルギーオーバーヘッドに抑えられ、完全なプログラマビリティという利点を有する。
PUMA コンパイラは大規模モデルの分割と最適化に成功し、数千の空間コア向けの効率的なコード生成を可能にした。
1T1Rメモリストラップ構成の採用により製造可能性が確保され、TSMC やUMC などの産業パートナーがすでに40nm CMOS統合メモリストラップ技術を前進させている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。