QUICK REVIEW

[論文レビュー] MRAM Co-designed Processing-in-Memory CNN Accelerator for Mobile and IoT Applications

Baohua Sun, Daniel Liu|arXiv (Cornell University)|Nov 26, 2018

Advanced Memory and Neural Computing参考文献 5被引用数 24

ひとこと要約

本論文では、22nm CMOSプロセスでプロセス・イン・メモリ型CNNアクセラレータをMRAMと共同設計し、非揮発性の重み記憶にSRAMの代わりにスピン転送トルクMRAMを採用することで、9.9 TOPS/Wのエネルギー効率を達成した。このアーキテクチャにより、1つのチップ上で複数のAIモデル（画像認識や音声認識など）を同時に推論可能となり、SRAMの密度およびリーク電力の制限を克服した。

ABSTRACT

We designed a device for Convolution Neural Network applications with non-volatile MRAM memory and computing-in-memory co-designed architecture. It has been successfully fabricated using 22nm technology node CMOS Si process. More than 40MB MRAM density with 9.9TOPS/W are provided. It enables multiple models within one single chip for mobile and IoT device applications.

研究の動機と目的

モバイルおよびIoTアプリケーションにおけるSRAMベースのCNNアクセラレータの消費電力およびメモリ密度の制限を解消すること。
複数のディープラーニングモデルの重みを非揮発的にオンチップに保持することで、外部メモリへの依存を排除すること。
STT-MRAMとプロセス・イン・メモリアーキテクチャを共同設計することで、超高エネルギー効率（TOPS/W）を達成すること。
1つのチップ上で複数のAIワークロード（例：顔認識および音声認識）を同時に実行できること。
実世界のモバイルおよびIoTデプロイメントに適した、40MBを超えるMRAM密度を統合したCNNアクセラレータの実現可能性を実証すること。

提案手法

非揮発性のフィルタ係数記憶のため、22nm CMOSプロセスでオンチップSTT-MRAMを搭載したCNNマトリクスプロセッシングエンジン（MPE）を共同設計した。
精度と面積／消費電力のバランスを図るため、モデル重みには15ビットのドメイン固有浮動小数点（DSFP）、活性化には9ビットのDSFPを採用した。
MACアレイがSRAMからのデータとMRAMからの重みを使用して畳み込み演算を実行する、プロセス・イン・メモリアーキテクチャを実装した。
階層的メモリ階層を採用：MRAMは長期的なモデル記憶に、SRAMは高帯域幅の中間活性化に使用。
MRAM、SRAM、MACアレイ間のデータフローを調整する制御ユニットを統合し、周期的なデータアクセスを可能にするクロックスキー回路を採用した。
STT-MRAMの高い耐久性および低リーク電力（25°Cで5.5mW、70°Cで7.2mW）を活用し、SRAM（70°Cで136mW）と比較してスタンバイ電力を大幅に削減した。

実験結果

リサーチクエスチョン

RQ1STT-MRAMは、性能を維持したまま、メモリ密度の向上とリーク電力の低減を実現するため、CNNアクセラレータにおけるSRAMの代替として可能か？
RQ2STT-MRAMと共同設計されたプロセス・イン・メモリ型CNNアクセラレータの実現可能なエネルギー効率（TOPS/W）はどの程度か？
RQ3非揮発性MRAMを用いることで、1つのチップ上で複数のAIモデル（例：画像認識および音声認識）を同時に実行可能か？
RQ4高温環境下における実シリコンでのMRAMベースの重み記憶の消費電力は、SRAMと比較してどの程度か？
RQ5提案アーキテクチャは、外部メモリを必要とせずに、1つのチップ上でアンサンブル推論やマルチモーダルAIワークロードをサポートできるか？

主な発見

22nmのMRAMベースのCNNアクセラレータは、9.3 TOPS/Wの前回のSRAMベース記録比で6.5%向上した9.9 TOPS/Wのエネルギー効率を達成した。
MRAMは、SRAMと比較して顕著に低いスタンバイ電力（25°Cで5.5mW、70°Cで7.2mW）を示し、リーク電力を最大80%まで削減した（SRAMはそれぞれ34.3mWおよび136mW）。
チップは40MBを超える埋め込みMRAM密度を達成し、前回のSRAMベースのCNN-DSA（9MB）と比較して4.5倍の増加を実現した。これにより、複数のモデルのオンチップ記憶が可能になった。
チップは、1つのチップ上で画像分類と音声認識の同時推論を正常に実行し、マルチモデル処理能力を実証した。
12.5MHzのクロック周波数で、3枚の224x224RGB画像を35fpsで処理でき、リアルタイムのモバイルおよびIoTアプリケーションに十分な性能を示した。
消費電力解析の結果、MRAM重みメモリの消費電力はチップ全体の約25%に留まり、残りの75%は計算およびデータ移動に起因していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。