QUICK REVIEW

[論文レビュー] The SpiNNaker 2 Processing Element Architecture for Hybrid Digital Neuromorphic Computing

Sebastian Höppner, Yexin Yan|arXiv (Cornell University)|Mar 15, 2021

Advanced Memory and Neural Computing被引用数 41

ひとこと要約

本論文は、22nm FDSOIで実装された SpiNNaker2 処理要素アーキテクチャを紹介し、適応ボディバイアス、DVFS、MAC アクセラレータ、およびデュアル NoC を備え、SNN、DNN、およびハイブリッド SNN/DNN のベンチマークを実証します。

ABSTRACT

This paper introduces the processing element architecture of the second generation SpiNNaker chip, implemented in 22nm FDSOI. On circuit level, the chip features adaptive body biasing for near-threshold operation, and dynamic voltage-and-frequency scaling driven by spiking activity. On system level, processing is centered around an ARM M4 core, similar to the processor-centric architecture of the first generation SpiNNaker. To speed operation of subtasks, we have added accelerators for numerical operations of both spiking (SNN) and rate based (deep) neural networks (DNN). PEs communicate via a dedicated, custom-designed network-on-chip. We present three benchmarks showing operation of the whole processor element on SNN, DNN and hybrid SNN/DNN networks.

研究の動機と目的

第2世代 SpiNNaker チップ（22nm FDSOI）の処理要素アーキテクチャを提示する。
スパイク活動と電力使用を合わせるための適応ボディバイアスと DVFS を紹介する。
ニューロン計算を高速化するアク сел 院（MAC アレイ、exp/log、RNG）を導入する。
スケーラブルなオンチップ通信のための QPE と NoC 設計を説明する。
SNN、DNN、ハイブリッドネットワークのベンチマーク結果を示す。

提案手法

ARM Cortex-M4F を統合し、固定小数点の指数・対数アクセラレータ、MAC アレイ、RNG、DVFS 対応電力レールを含む 22nm FDSOI SpiNNaker2 PE を説明する。
独立した DVFS を実現する GALS クロックでの quad-PE（QPE）組織と 2 つのメッシュ NoC（DNoC と CNoC）を説明する。
局所 SRAM の再利用と NoC 供給オペランドを最大化するための CONV/MM 演算向け 16x4 8-bit MAC アクセラレータとデータフローを詳述する。
ULV 動作内の適応ボディバイアス（ABB）とデュアルレール SRAM を説明し、0.5–0.6 V でのエネルギー効率の高い性能を達成する。
22FDX でのテストチップ実装、エネルギー最適化の設計選択、DVFS レベル PL1 および PL2 を提示する。
MAC と ARM コアを用いた SNN、NEF ベースのハイブリッド、DNN レイヤにわたるベンチマーク手法を説明する。

実験結果

リサーチクエスチョン

RQ1SpiNNaker2 の PE アーキテクチャは、スパイク型（SNN）とレートベース型（DNN）ニューラルネットワークの両方を効率的にサポートできるか。
RQ222nm FDSOI SpiNNaker2 PE において ABB と DVFS によってどのようなエネルギーおよび性能の利点が得られるか。
RQ3MAC アクセラレータはプロセッサのみの実装と比較して DNN およびハイブリッド SNN/DNN ワークロードをどの程度加速できるか。
RQ4大規模なニューロモルフィックワークロードを扱う際、2D-QPE SpiNNaker2 レイアウトのスケーラブルな NoC 特性はどうなるか。

主な発見

PL1（0.50 V, 200 MHz）での PE のエネルギー効率は 16.68 μW/MHz、PL2（0.60 V, 400 MHz）では 20.16 μW/MHz。
8-bit 行列乗算に対する MAC アクセラレータは 1.47 TOPS/W（PL1）、1.51 TOPS/W（PL2）を達成し、0.50 V, 320 MHz で最大 1.75 TOPS/W。
DVFS を用いた Synfire chain SNN ベンチマークは総電力を 60.4%、リークを 63.4% 削減（66.4 mW のベースラインが 24.3 mW に減少）。
NEF ベースのハイブリッド結果は MAC アクセラレータがエンコード/デコードフローの効率化を可能にし、シナプスイベントあたりのエネルギーはモデルに依存して約 10–20 pJ、DNN レイヤは ARMNN と比較して最大で 116–610x のスピードアップ、畳み込みレイヤは 148–652x のエネルギー効率向上を達成。
DVFS はアクティビティに動的適応を可能にし、ほとんどの時間を PL1 に保つ（スパースな活動のため）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。