[论文解读] Spikingformer: A Key Foundation Model for Spiking Neural Networks
Spikingformer 引入基于尖峰驱动的残差学习架构,构建纯 Transformer 基的尖峰神经网络,在直接训练的 SNN 中达到最先进的结果,同时避免非尖峰计算并降低能耗。
Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks, due to their event-driven spiking computation. However, some foundation SNN backbones (including Spikformer and SEW ResNet) suffer from non-spike computations (integer-float multiplications) caused by the structure of their residual connections. These non-spike computations increase SNNs' power consumption and make them unsuitable for deployment on mainstream neuromorphic hardware. In this paper, we analyze the spike-driven behavior of the residual connection methods in SNNs. We then present Spikingformer, a novel spiking transformer backbone that merges the MS Residual connection with Self-Attention in a biologically plausible way to address the non-spike computation challenge in Spikformer while maintaining global modeling capabilities. We evaluate Spikingformer across 13 datasets spanning large static images, neuromorphic data, and natural language tasks, and demonstrate the effectiveness and universality of Spikingformer, setting a vital benchmark for spiking neural networks. In addition, with the spike-driven features and global modeling capabilities, Spikingformer is expected to become a more efficient general-purpose SNN backbone towards energy-efficient artificial intelligence. Code: https://github.com/TheBrainLab/Spikingformer
研究动机与目标
- 通过在残差连接中去除非尖峰计算来促进节能的深度尖峰神经网络。
- 提出尖峰驱动的残差学习,以实现纯尖峰驱动的Transformer SNNs。
- 开发 Spikingformer,一种具有尖峰驱动残差和尖峰化标记器的Transformer型SNN。
- 在 ImageNet、CIFAR 及神经形态数据集上评估 Spikingformer,以确立直接训练的纯 SNNs 中的最先进结果。
提出的方法
- 引入尖峰驱动的残差学习,其中 O_l = ConvBN_l(SN_l(O_{l-1})) + O_{l-1} 且 O_{l+1} = ConvBN_{l+1}(SN_{l+1}(O_l)) + O_l,以避免浮点乘法。
- 采用尖峰标记器执行基于尖峰的补丁嵌入与下采样,以生成 X ∈ R^{T×N×D}。
- 在 Spiking Transformer Block 内使用 Spiking Self Attention (SSA) 与 Spiking MLP 块,Q、K、V 通过基于尖峰的卷积和 SN 层计算。
- 用基于 ConvBN 的路径替换线性 BN 构造,以保持计算尖峰驱动。
- 提供基于尖峰操作(SOP)的理论能量计算,并使用 45nm 硬件对 MAC 和 AC 操作的能量估算。
实验结果
研究问题
- RQ1是否能够用纯尖峰驱动的残差构建一个基于 Transformer 的SNN,以消除非尖峰计算?
- RQ2相比 Spikformer 和 SEW ResNet,纯尖峰驱动 Transformer 骨干在 ImageNet、CIFAR 和神经形态数据集上能达到怎样的性能?
- RQ3尖峰驱动残差设计对主流神经形态硬件的能耗有何影响?
- RQ4在最大化尖峰驱动计算的同时,分类头设计有哪些权衡?
主要发现
- Spikingformer 在 ImageNet 上以 8-768 配置、4 个时间步达到 75.85% 的 Top-1 准确率,比 Spikformer 高出 1.04 个百分点。
- Spikingformer 相较于 Spikformer 在 ImageNet 的 8-768 变体上能耗降低 57.34%。
- 在 ImageNet 上,Spikingformer-8-512 达到 74.79% 的 Top-1,能耗较 Spikformer-8-512 下降 60.36%。
- Spikingformer 在 CIFAR10/100 上持续超越 Spikformer,在 4 时间步设定下分别达到 95.81%/79.21%。
- 在神经形态数据集 CIFAR10-DVS 与 DVS128 Gesture 上,Spikingformer 的 Top-1 准确率分别为 81.3% 和 98.3%(或在 16 步时更高),超过 Spikformer。
- 在静态与神经形态基准上,Spikingformer 在直接训练的纯尖峰驱动 SNN 中展现了最先进的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。