[論文レビュー] Training Full Spike Neural Networks via Auxiliary Accumulation Pathway
本論文は、Dual-Stream Training (DST) が全スパイク神経ネットワークへ detachable Auxiliary Accumulation Pathway (AAP) を追加し、情報損失を緩和することで高性能な FSNN を実現し、テスト時の任意の非スパイク MAC で識別性を向上させる。
Due to the binary spike signals making converting the traditional high-power multiply-accumulation (MAC) into a low-power accumulation (AC) available, the brain-inspired Spiking Neural Networks (SNNs) are gaining more and more attention. However, the binary spike propagation of the Full-Spike Neural Networks (FSNN) with limited time steps is prone to significant information loss. To improve performance, several state-of-the-art SNN models trained from scratch inevitably bring many non-spike operations. The non-spike operations cause additional computational consumption and may not be deployed on some neuromorphic hardware where only spike operation is allowed. To train a large-scale FSNN with high performance, this paper proposes a novel Dual-Stream Training (DST) method which adds a detachable Auxiliary Accumulation Pathway (AAP) to the full spiking residual networks. The accumulation in AAP could compensate for the information loss during the forward and backward of full spike propagation, and facilitate the training of the FSNN. In the test phase, the AAP could be removed and only the FSNN remained. This not only keeps the lower energy consumption but also makes our model easy to deploy. Moreover, for some cases where the non-spike operations are available, the APP could also be retained in test inference and improve feature discrimination by introducing a little non-spike consumption. Extensive experiments on ImageNet, DVS Gesture, and CIFAR10-DVS datasets demonstrate the effectiveness of DST.
研究の動機と目的
- 完全スパイクベースのニューラルネットワーク(FSNN)をスパイクのみの演算で高い精度で訓練する動機づけと実現。
- 深いFSNNにおける情報損失と勾配消失を detachable auxiliary pathway で解決。
- ニューロモルフィックハードウェア上でエネルギー効率良く展開するため、推論時に非スパイク操作を削除できる訓練戦略を提供。
- ImageNet、DVS Gesture、CIFAR10-DVS データセットで DST のスケーラビリティを示す。
提案手法
- Full-spike propagation stream と plug-and-play の Auxiliary Accumulation Pathway (AAP) からなる Dual-Stream Training (DST) フレームワークを導入。
- AAP におけるスパイク蓄積を用いて前向き・後向きの情報損失を補正し、深い Spiking ResNet における勾配消失を緩和。
- 出力の両方の損失を組み合わせた一貫した目的関数を定義:L(x,y)=Lc(Os,y)+Lc(Oa,y)。
- f_l パスの最後の BN をゼロにするか、信号を必要に応じて保持するようスパイクニューロンを設定することで、両ストリーム間のアイデンティティマッピングを実現。
- 推論時にAAP を除去して FSNN のエネルギー効率を維持し、利用可能な場合はAAP 非スパイク MAC の保持を選択的に許容。
実験結果
リサーチクエスチョン
- RQ1DST は情報損失と勾配消失を緩和することにより深い FSNN の訓練を改善できるか。
- RQ2Auxiliary Accumulation Pathway は ImageNet のような大規模データセットでスパイクのみ推論による高精度を実現できるか。
- RQ3推論時に Auxiliary Accumulation Pathway を保持することと削除することの精度とエネルギー消費に与える影響はどうか。
- RQ4DST は静的画像とニューロモルフィックイベントデータのような多様なデータ領域で、従来の FSNN および混合精度 SNN 手法と比較してどのように性能を発揮するか。
主な発見
- DST で訓練されたFSNN は、Scratch から訓練された以前の Spiking ResNet を超える高い性能を達成し、深さとともにスケールする。
- DST を用いた FSNN は Spiking ResNet やいくつかの従来の FSNN 手法より性能が優れ、計算コストを低く維持。
- 推論時に AAP を用いた DSNN は FSNN 単独より識別性をさらに向上させ、いくつかの設定で混合精度 SEW ResNet に勝る。
- 深さに伴い非スパイク蓄積計算が線形に増加する一方、主な MAC コストはスパイク重視のダウンサンプリングを通じて抑制。
- ImageNet、DVS Gesture、CIFAR10-DVS の実験で、DST は scratch から訓練された ResNet 基盤および Transformer 基盤の SNN の精度と計算量を改善。
- DST を用いた Spike Transformer は大規模な非スパイク MAC 超過を回避しつつ、競争力のある性能を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。