[论文解读] The SpiNNaker 2 Processing Element Architecture for Hybrid Digital Neuromorphic Computing
本文介绍在 22nm FDSOI 实现的 SpiNNaker2 处理单元架构,具有自适应体偏置、DVFS、MAC 加速器和双 NoC,并演示 SNN、DNN 以及混合 SNN/DNN 基准测试。
This paper introduces the processing element architecture of the second generation SpiNNaker chip, implemented in 22nm FDSOI. On circuit level, the chip features adaptive body biasing for near-threshold operation, and dynamic voltage-and-frequency scaling driven by spiking activity. On system level, processing is centered around an ARM M4 core, similar to the processor-centric architecture of the first generation SpiNNaker. To speed operation of subtasks, we have added accelerators for numerical operations of both spiking (SNN) and rate based (deep) neural networks (DNN). PEs communicate via a dedicated, custom-designed network-on-chip. We present three benchmarks showing operation of the whole processor element on SNN, DNN and hybrid SNN/DNN networks.
研究动机与目标
- 展示第二代 SpiNNaker 芯片(22nm FDSOI)的处理单元架构。
- 展示自适应体偏置和 DVFS,以使尖峰活动与功耗相匹配。
- 引入加速器(MAC 数组、指数/对数、RNG)以加速神经计算。
- 描述 QPE 和 NoC 设计,以实现片上可扩展通信。
- 展示 SNN、DNN 及混合网络的基准测试结果。
提出的方法
- 描述整合 ARM Cortex-M4F、定点指数/对数加速器、MAC 数组、RNGs,以及具 DVFS 功能的电源轨的 22nm FDSOI SpiNNaker2 PE。
- 解释四处理元件(QPE)组织及其用于独立 DVFS 的 GALS 时钟,以及双网格 NoC(DNoC 与 CNoC)。
- 详细说明用于 CONV/MM 运算的 16x4、8-bit MAC 加速器及其数据流,以最大化本地 SRAM 重用和通过 NoC 提供的操作数。
- 概述在 ULV 操作下的自适应体偏置(ABB)与双轨 SRAM,以在 0.5–0.6 V 实现高能效性能。
- 在 22FDX 上展示测试芯片实现、能量优化设计选择,以及 DVFS 水平 PL1 和 PL2。
- 描述基于 MAC 与 ARM 内核,在 SNN、基于 NEF 的混合,以及 DNN 层上的基准方法学。
实验结果
研究问题
- RQ1SpiNNaker2 的 PE 架构如何在高效支持脉冲式(SNN)和基于速率的(DNN)神经网络?
- RQ2在 22nm FDSOI 的 SpiNNaker2 PE 上,通过 ABB 和 DVFS 可以获得哪些能量与性能方面的提升?
- RQ3与仅处理器实现相比,MAC 加速器如何为 DNN 与混合 SNN/DNN 工作负载带来加速?
- RQ4在处理大规模神经形态工作负载时,二维 QPE SpiNNaker2 布局的可扩展 NoC 特征是什么?
主要发现
- 在 PL1(0.50 V,200 MHz)下的 PE 能效为 16.68 μW/MHz;在 PL2(0.60 V,400 MHz)下为 20.16 μW/MHz。
- MAC 加速器在 8-bit 矩阵乘法方面实现 1.47 TOPS/W(PL1)和 1.51 TOPS/W(PL2);在 0.50 V、320 MHz 下可达 1.75 TOPS/W。
- 带 DVFS 的 Synfire chain SNN 基准测试将总功耗降低 60.4%,泄漏功耗降低 63.4%(基线 66.4 mW 降至 24.3 mW)。
- 基于 NEF 的混合结果显示 MAC 加速器实现高效的编码/解码流程,单突触事件能耗约为 10–20 pJ,取决于模型;在某些层中 DNN 层相对于 ARMNN 可实现高达 116–610x 的加速,卷积层的能效提升为 148–652x。
- DVFS 实现对活动的动态适应,由于活动稀疏,大部分时间保持在 PL1。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。