[論文レビュー] Spikingformer: A Key Foundation Model for Spiking Neural Networks
Spikingformer はスパイク駆動残差学習アーキテクチャを導入し、純粋なトランスフォーマー型スパイキングニューラルネットワークを構築する。非スパイク計算を回避し、エネルギー消費を削減しつつ、直接訓練された SNN の中で最先端の結果を達成する。
Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks, due to their event-driven spiking computation. However, some foundation SNN backbones (including Spikformer and SEW ResNet) suffer from non-spike computations (integer-float multiplications) caused by the structure of their residual connections. These non-spike computations increase SNNs' power consumption and make them unsuitable for deployment on mainstream neuromorphic hardware. In this paper, we analyze the spike-driven behavior of the residual connection methods in SNNs. We then present Spikingformer, a novel spiking transformer backbone that merges the MS Residual connection with Self-Attention in a biologically plausible way to address the non-spike computation challenge in Spikformer while maintaining global modeling capabilities. We evaluate Spikingformer across 13 datasets spanning large static images, neuromorphic data, and natural language tasks, and demonstrate the effectiveness and universality of Spikingformer, setting a vital benchmark for spiking neural networks. In addition, with the spike-driven features and global modeling capabilities, Spikingformer is expected to become a more efficient general-purpose SNN backbone towards energy-efficient artificial intelligence. Code: https://github.com/TheBrainLab/Spikingformer
研究の動機と目的
- エネルギー効率の高い深層スパイキングニューラルネットワークを、残差接続における非スパイク計算を排除することで動機づける。
- 純粋なスパイク駆動トランスフォーマー SNN を実現するための Spike-driven Residual Learning を提案する。
- Spikingformer を、スパイク駆動残差と Spiking Tokenizer を備えるトランスフォーマーベースの SNN として開発する。
- ImageNet、CIFAR、ニューロモルフィックデータセットで Spikingformer を評価し、直接訓練された純粋 SNN の中で最先端を確立する。
提案手法
- O_l = ConvBN_l(SN_l(O_{l-1})) + O_{l-1} および O_{l+1} = ConvBN_{l+1}(SN_{l+1}(O_l)) + O_l を導入して浮動小数点乗算を回避するスパイク駆動残差学習。
- Spiking Tokenizer を採用してスパイクベースのパッチ埋め込みとダウンサンプリングを行い、X ∈ R^{T×N×D} を生成する。
- Spiking Self Attention (SSA) と Spiking MLP ブロックを Spiking Transformer ブロック内で使用し、Q、K、V はスパイクベースの畳み込みと SN レイヤーで計算される。
- 線形 BN ベースの構成を ConvBN ベースの経路に置き換え、計算をスパイク駆動に保つ。
- スパイクベースの演算 (SOP) に基づく理論的エネルギー計算を提供し、MAC および AC 演算の 45nm ハードウェアエネルギー推定を使用する。
実験結果
リサーチクエスチョン
- RQ1非スパイク計算を排除する純粋なスパイク駆動残差でトランスフォーマー型 SNN を構築できるか。
- RQ2ImageNet、CIFAR、ニューロモルフィックデータセットに対して、純粋なスパイク駆動トランスフォーマー・バックボーンが Spikformer と SEW ResNet と比較してどのような性能を示すか。
- RQ3スパイク駆動残差設計は主流のニューロモルフィックハードウェアにおけるエネルギー消費にどのように影響するか。
- RQ4最大化されたスパイク駆動計算における分類器ヘッド設計のトレードオフは何か。
主な発見
| Methods | Architecture | Param (M) | OPs (G) | Time Step | Energy Consumption(mJ) | Top-1 Acc |
|---|---|---|---|---|---|---|
| TET | Spiking-ResNet-34 | - | - | 6 | - | 64.79 |
| SEW ResNet-34 | SEW ResNet-34 | 21.79 | 3.88 | 4 | - | 67.04 |
| Spiking ResNet-34 | ResNet-34 | 21.79 | 65.28 | 350 | 59.30 | 71.61 |
| ResNet-50 | ResNet-50 | 25.56 | 78.29 | 350 | 70.93 | 72.75 |
| STBP-tdBN | Spiking-ResNet-34 | 21.79 | 6.50 | 6 | 6.39 | 63.72 |
| SEW ResNet-50 | SEW ResNet-50 | 25.56 | 4.83 | 4 | 4.89 | 67.78 |
| SEW ResNet-101 | SEW ResNet-101 | 44.55 | 9.30 | 4 | 8.91 | 68.76 |
| SEW ResNet-152 | SEW ResNet-152 | 60.19 | 13.72 | 4 | 12.89 | 69.26 |
| MS-ResNet | ResNet-104 | 44.55+ | - | 5 | - | 74.21 |
| ANN | Transformer-8-512 | 29.68 | 8.33 | 1 | 38.34 | 80.80 |
| Spikformer | Spikformer-8-384 | 16.81 | 6.82 | 4 | 12.43 | 70.24 |
| Spikformer-8-512 | Spikformer-8-512 | 29.68 | 11.09 | 4 | 18.82 | 73.38 |
| Spikformer-8-768 | Spikformer-8-768 | 66.34 | 22.09 | 4 | 32.07 | 74.81 |
| Spikingformer | Spikingformer-8-384 | 16.81 | 3.88 | 4 | 4.69 | 72.45 |
| Spikingformer-8-512 | Spikingformer-8-512 | 29.68 | 6.52 | 4 | 7.46 | 74.79 |
| Spikingformer-8-768 | Spikingformer-8-768 | 66.34 | 12.54 | 4 | 13.68 | 75.85 |
- Spikingformer は ImageNet の 8-768 構成で 8 タイムステップを用いて Top-1 精度 75.85% を達成し、Spikformer を 1.04 ポイント上回る。
- Spikingformer は 8-768 の場合、Spikformer と比較してエネルギー消費を 57.34% 減らす。
- ImageNet の場合、Spikingformer-8-512 は Top-1 74.79% を達成し、Spikformer-8-512 と比較してエネルギーを 60.36% 減らす。
- Spikingformer は CIFAR10/100 で一貫して Spikformer を上回り、4タイムステップ設定でそれぞれ 95.81% / 79.21% を達成。
- ニューロモルフィックデータセット CIFAR10-DVS および DVS128 Gesture では、Spikingformer はそれぞれ 81.3% と 98.3% の Top-1 精度を達成(16 ステップ時にはさらに高い場合あり)、Spikformer を上回る。
- 静的ベンチマークとニューロモルフィックベンチマークの両方で、Spikingformer は直接訓練された純粋なスパイク駆動 SNN の中で最先端の性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。