[論文レビュー] Spike-driven Transformer
Spike-driven Self-Attentionモジュールとスパイクに焦点を当てた残差を導入し、Transformerの演算を疎和へ変換し、ImageNetとニューロモルフィックデータセットでエネルギー効率の高い線形成長の自己注意を実現し、競争力のある精度を達成する。
Spiking Neural Networks (SNNs) provide an energy-efficient deep learning option due to their unique spike-based event-driven (i.e., spike-driven) paradigm. In this paper, we incorporate the spike-driven paradigm into Transformer by the proposed Spike-driven Transformer with four unique properties: 1) Event-driven, no calculation is triggered when the input of Transformer is zero; 2) Binary spike communication, all matrix multiplications associated with the spike matrix can be transformed into sparse additions; 3) Self-attention with linear complexity at both token and channel dimensions; 4) The operations between spike-form Query, Key, and Value are mask and addition. Together, there are only sparse addition operations in the Spike-driven Transformer. To this end, we design a novel Spike-Driven Self-Attention (SDSA), which exploits only mask and addition operations without any multiplication, and thus having up to $87.2\times$ lower computation energy than vanilla self-attention. Especially in SDSA, the matrix multiplication between Query, Key, and Value is designed as the mask operation. In addition, we rearrange all residual connections in the vanilla Transformer before the activation functions to ensure that all neurons transmit binary spike signals. It is shown that the Spike-driven Transformer can achieve 77.1\% top-1 accuracy on ImageNet-1K, which is the state-of-the-art result in the SNN field. The source code is available at https://github.com/BICLab/Spike-Driven-Transformer.
研究の動機と目的
- Spike Neural Networks (SNNs)とTransformerアーキテクチャを組み合わせて、エネルギー効率の高い深層学習を動機づける。
- キー演算を疎和と2値スパイクで実行する、完全にスパイク駆動のTransformerを設計する。
- ネットワーク全体で二値スパイク通信を保証するように残差接続を再配置する。
- 静的データセットとニューロモルフィックデータセットで提案モデルのエネルギー効率と競争力のある精度を示す。
提案手法
- 乗算とソフトマックスを避け、マスクと疎和のみを用いるSpike-driven Self-Attention (SDSA)を開発する。
- Q, K, Vの乗算をHadamardマスクと列ごとの総和に置換し、それにスパイクニューロン層を続けることで、トークンとチャネルに対して線形計算量を実現する。
- 二値スパイク信号を伝搬させ、多ビットスパイク出力を避けるように残差接続を再配置する。
- Spiking Patch Splitting、SDSA、MLP、およびスパイク対応パイプラインを備えた線形分類器を介して画像入力を処理する。
- 自己注意と全体のスパイク駆動コンポーネントに対して大幅なエネルギー節約を示す理論的エネルギー分析を提供する。
実験結果
リサーチクエスチョン
- RQ1Spike-driven Self-Attention (SDSA)は、精度を犠牲にせずに従来の自己注意を置き換えることができるか?
- RQ2完全にスパイク駆動のTransformerと、従来のTransformerおよび既存のスパイキングTransformerとを比較した場合のエネルギーと計算上の利点は何か?
- RQ3スパイク駆動残差接続はネットワークダイナミクスとタスク性能にどう影響するか?
- RQ4ImageNetおよびニューロモルフィックデータセットに対するSpike-driven Transformerの性能は、最先端のSNNと比較してどうか?
- RQ5SDSAアプローチは、トークンおよびチャネルの次元に関してスケーラブルか?
主な発見
- Spike-driven Transformerは、288x288入力、D=768、L=8でImageNet-1Kのトップ1が77.1%を達成し、SNN分野で最先端と報告。
- SDSAは、乗算とsoftmaxをマスクと加算演算に置換することによって、vanilla self-attentionと比較して最大87.2xの自己注意エネルギーを削減する。
- エネルギー分析は、Spike-driven自己注意のエネルギーが、モデルサイズを問わずANN自己注意より劇的に低いことを示す(例: 8-768ケースで87.2x差)。
- 膜電位ショートカットとして再設計された残差接続は、スパイク信号を二値のまま保ち、SEWベースのショートカットと比較して性能を改善する。
- このアプローチは、CIFAR-10/100、CIFAR10-DVS、DVS128 Gestureを含む静的およびニューロモルフィックデータセットで最先端または競争力のある結果を生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。