[論文レビュー] Constructing Deep Spiking Neural Networks from Artificial Neural Networks with Knowledge Distillation
知識蒸留フレームワークを用いて事前学習済みのANNから深層スパイキングニューラルネット(SNN)を構築し、異種のANN-SNN構造を実現、訓練を高速化し、頑健性を向上させる。
Spiking neural networks (SNNs) are well known as the brain-inspired models with high computing efficiency, due to a key component that they utilize spikes as information units, close to the biological neural systems. Although spiking based models are energy efficient by taking advantage of discrete spike signals, their performance is limited by current network structures and their training methods. As discrete signals, typical SNNs cannot apply the gradient descent rules directly into parameters adjustment as artificial neural networks (ANNs). Aiming at this limitation, here we propose a novel method of constructing deep SNN models with knowledge distillation (KD) that uses ANN as teacher model and SNN as student model. Through ANN-SNN joint training algorithm, the student SNN model can learn rich feature information from the teacher ANN model through the KD method, yet it avoids training SNN from scratch when communicating with non-differentiable spikes. Our method can not only build a more efficient deep spiking structure feasibly and reasonably, but use few time steps to train whole model compared to direct training or ANN to SNN methods. More importantly, it has a superb ability of noise immunity for various types of artificial noises and natural signals. The proposed novel method provides efficient ways to improve the performance of SNN through constructing deeper structures in a high-throughput fashion, with potential usage for light and efficient brain-inspired computing of practical scenarios.
研究の動機と目的
- 深層SNNの非微分性と訓練難易度を克服するための知識蒸留の活用を動機づける。
- 事前学習済みのANN教師を用いて、異種アーキテクチャを持つ深いSNNを構築可能にする。
- オフラインのANN-SNN変換と比較して訓練時間とメモリ使用量を削減する。
- 人工および自然ノイズに対するSNNの性能と頑健性を向上させる。
- 標準データセット上でKDベースのSNNの効率と可能性を実証する。
提案手法
- 事前学習済みの教師ANNが学生SNNを導く、共同のANN-to-SNN知識蒸留フレームワークを提案する。
- 温度T付きの教師のソフト出力と実際のラベルを照合してSNNを訓練する、応答ベースのKDを用いる。
- 中間層情報を1x1畳み込みとL2蒸留損失により転送する中間特徴ベースのKDを導入する。
- スパイキングニューノン(IFモデル)を用いた非微分可能なSNNを surrogate gradient 学習で訓練する。
- 訓練中に教師と学生のアーキテクチャを分離することで、異種のANN-SNN構造を許容する。
- 2つのANN-SNN共同損失形式を提示する: (i) ソフト-teacherと硬ラベルを組み合わせた応答ベースの損失、(ii) 中間特徴を整合させる特徴ベースの損失。
実験結果
リサーチクエスチョン
- RQ1訓練済みのANNからの知識蒸留は、オフライン変換を超えて深いSNNの性能を向上させるか。
- RQ2KD訓練中に異種のANN-SNN構造を許容することは、より深く、より効率的なSNNを実現するか。
- RQ3応答ベースと特徴ベースのKDは、SNNの精度とノイズ頑健性の向上においてどのように比較されるか。
- RQ4KDベースのアプローチと従来法の訓練時間と計算資源の影響はどうなるか。
主な発見
- KDベースの訓練は、CIFAR10およびMNISTで、対応する非KDベースのベースラインより高いSNN精度を、さまざまな教師-学生ペアリングで示す。
- KDで訓練されたSNNは、Gaussian、背景、回転、その他の摂動に対してノイズ耐性が向上する。
- 特徴ベースのKDは、特定のアーキテクチャペアで応答ベースのKDを上回ることがあり、顕著な改善を達成する(例:CIFAR10でPyramidnet18教師を用いた場合の92.10%など)。
- このアプローチは、非常に少ないタイムステップ(最大で4つ)でも高い精度を維持しつつ深いSNNを実現する。
- KDで訓練されたSNNは、大規模なANNと比較してパラメータ数とシナプス演算を削減することを示し、ニューロモルフィックハードウェアにおける効率性が有利であることを示唆する。
- 総じて、KDベースのSNNは報告されたスパイキングモデルの中で、タイムステップ数を減らしつつ最先端の性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。