Skip to main content
QUICK REVIEW

[論文レビュー] MRAM Co-designed Processing-in-Memory CNN Accelerator for Mobile and IoT Applications

Baohua Sun, Daniel Liu|arXiv (Cornell University)|Nov 26, 2018
Advanced Memory and Neural Computing参考文献 5被引用数 24
ひとこと要約

本論文では、22nm CMOSプロセスでプロセス・イン・メモリ型CNNアクセラレータをMRAMと共同設計し、非揮発性の重み記憶にSRAMの代わりにスピン転送トルクMRAMを採用することで、9.9 TOPS/Wのエネルギー効率を達成した。このアーキテクチャにより、1つのチップ上で複数のAIモデル(画像認識や音声認識など)を同時に推論可能となり、SRAMの密度およびリーク電力の制限を克服した。

ABSTRACT

We designed a device for Convolution Neural Network applications with non-volatile MRAM memory and computing-in-memory co-designed architecture. It has been successfully fabricated using 22nm technology node CMOS Si process. More than 40MB MRAM density with 9.9TOPS/W are provided. It enables multiple models within one single chip for mobile and IoT device applications.

研究の動機と目的

  • モバイルおよびIoTアプリケーションにおけるSRAMベースのCNNアクセラレータの消費電力およびメモリ密度の制限を解消すること。
  • 複数のディープラーニングモデルの重みを非揮発的にオンチップに保持することで、外部メモリへの依存を排除すること。
  • STT-MRAMとプロセス・イン・メモリアーキテクチャを共同設計することで、超高エネルギー効率(TOPS/W)を達成すること。
  • 1つのチップ上で複数のAIワークロード(例:顔認識および音声認識)を同時に実行できること。
  • 実世界のモバイルおよびIoTデプロイメントに適した、40MBを超えるMRAM密度を統合したCNNアクセラレータの実現可能性を実証すること。

提案手法

  • 非揮発性のフィルタ係数記憶のため、22nm CMOSプロセスでオンチップSTT-MRAMを搭載したCNNマトリクスプロセッシングエンジン(MPE)を共同設計した。
  • 精度と面積/消費電力のバランスを図るため、モデル重みには15ビットのドメイン固有浮動小数点(DSFP)、活性化には9ビットのDSFPを採用した。
  • MACアレイがSRAMからのデータとMRAMからの重みを使用して畳み込み演算を実行する、プロセス・イン・メモリアーキテクチャを実装した。
  • 階層的メモリ階層を採用:MRAMは長期的なモデル記憶に、SRAMは高帯域幅の中間活性化に使用。
  • MRAM、SRAM、MACアレイ間のデータフローを調整する制御ユニットを統合し、周期的なデータアクセスを可能にするクロックスキー回路を採用した。
  • STT-MRAMの高い耐久性および低リーク電力(25°Cで5.5mW、70°Cで7.2mW)を活用し、SRAM(70°Cで136mW)と比較してスタンバイ電力を大幅に削減した。

実験結果

リサーチクエスチョン

  • RQ1STT-MRAMは、性能を維持したまま、メモリ密度の向上とリーク電力の低減を実現するため、CNNアクセラレータにおけるSRAMの代替として可能か?
  • RQ2STT-MRAMと共同設計されたプロセス・イン・メモリ型CNNアクセラレータの実現可能なエネルギー効率(TOPS/W)はどの程度か?
  • RQ3非揮発性MRAMを用いることで、1つのチップ上で複数のAIモデル(例:画像認識および音声認識)を同時に実行可能か?
  • RQ4高温環境下における実シリコンでのMRAMベースの重み記憶の消費電力は、SRAMと比較してどの程度か?
  • RQ5提案アーキテクチャは、外部メモリを必要とせずに、1つのチップ上でアンサンブル推論やマルチモーダルAIワークロードをサポートできるか?

主な発見

  • 22nmのMRAMベースのCNNアクセラレータは、9.3 TOPS/Wの前回のSRAMベース記録比で6.5%向上した9.9 TOPS/Wのエネルギー効率を達成した。
  • MRAMは、SRAMと比較して顕著に低いスタンバイ電力(25°Cで5.5mW、70°Cで7.2mW)を示し、リーク電力を最大80%まで削減した(SRAMはそれぞれ34.3mWおよび136mW)。
  • チップは40MBを超える埋め込みMRAM密度を達成し、前回のSRAMベースのCNN-DSA(9MB)と比較して4.5倍の増加を実現した。これにより、複数のモデルのオンチップ記憶が可能になった。
  • チップは、1つのチップ上で画像分類と音声認識の同時推論を正常に実行し、マルチモデル処理能力を実証した。
  • 12.5MHzのクロック周波数で、3枚の224x224RGB画像を35fpsで処理でき、リアルタイムのモバイルおよびIoTアプリケーションに十分な性能を示した。
  • 消費電力解析の結果、MRAM重みメモリの消費電力はチップ全体の約25%に留まり、残りの75%は計算およびデータ移動に起因していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。