Skip to main content
QUICK REVIEW

[論文レビュー] Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection

Xinhao Luo, Man Yao|arXiv (Cornell University)|Jul 30, 2024
Advanced Memory and Neural Computing被引用数 5
ひとこと要約

SpikeYOLOを提示する。整数値のLeaky Integrate-and-Fire (I-LIF) ニューロンと簡略化されたYOLOベースのアーキテクチャを備えた Spike Neural Network アプローチで、静的データセットとニューロモルフデータセットの両方で低電力かつ高い物体検出精度を実現する。

ABSTRACT

Brain-inspired Spiking Neural Networks (SNNs) have bio-plausibility and low-power advantages over Artificial Neural Networks (ANNs). Applications of SNNs are currently limited to simple classification tasks because of their poor performance. In this work, we focus on bridging the performance gap between ANNs and SNNs on object detection. Our design revolves around network architecture and spiking neuron. First, the overly complex module design causes spike degradation when the YOLO series is converted to the corresponding spiking version. We design a SpikeYOLO architecture to solve this problem by simplifying the vanilla YOLO and incorporating meta SNN blocks. Second, object detection is more sensitive to quantization errors in the conversion of membrane potentials into binary spikes by spiking neurons. To address this challenge, we design a new spiking neuron that activates Integer values during training while maintaining spike-driven by extending virtual timesteps during inference. The proposed method is validated on both static and neuromorphic object detection datasets. On the static COCO dataset, we obtain 66.2% mAP@50 and 48.9% mAP@50:95, which is +15.0% and +18.7% higher than the prior state-of-the-art SNN, respectively. On the neuromorphic Gen1 dataset, we achieve 67.2% mAP@50, which is +2.5% greater than the ANN with equivalent architecture, and the energy efficiency is improved by 5.7*. Code: https://github.com/BICLab/SpikeYOLO

研究の動機と目的

  • ANNとSNNの物体検出性能ギャップを埋める。
  • 複雑なCNNモジュールをSNN形態へ変換する際のスパイク劍降を抑制する。
  • SNNにおける量子化誤差を緩和する整数値トレーニングを導入する。
  • デプロイ時のエネルギー効率を維持するためにスパイク駆動推論を有効にする。

提案手法

  • SpikeYOLOを提案する。これはロバストなスパイクベースの特徴抽出のための meta SNN ブロックを統合した YOLOv8 の簡略化マクロ設計。
  • I-LIF を導入する。整数値活性化でトレーニングし、推論時には二値スパイクへ変換して量子化誤差を低減するスパイク発火ニューロン。
  • 推論時に拡張仮想タイムステップを使用して整数活性化をスパイク駆動計算へマッピングする。
  • 静的画像とニューロモルフィックイベントストリームの入力処理を適応し、SpikeYOLO アーキテクチャには二つの専門 SNN ブロック(SNN-Block-1とSNN-Block-2)を含む。
  • 静的 COCO 2017 val およびニューロモルフィック Gen1 データセットで評価し、mAPとエネルギー効率の観点で従来の SNN と ANN を比較する。
Figure 1 : The overall architecture of SpikeYOLO. We designed two SNN blocks, SNN-Block-1 and SNN-Block-2, and kept other architectures remain as YOLOv8. SNN-Block-1 employs standard convolution within its $\rm{ChannelConv\left(\cdot\right)}$ component, whereas SNN-Block-2 utilizes re-parameterizati
Figure 1 : The overall architecture of SpikeYOLO. We designed two SNN blocks, SNN-Block-1 and SNN-Block-2, and kept other architectures remain as YOLOv8. SNN-Block-1 employs standard convolution within its $\rm{ChannelConv\left(\cdot\right)}$ component, whereas SNN-Block-2 utilizes re-parameterizati

実験結果

リサーチクエスチョン

  • RQ1SpikeYOLO は標準データセットおよびニューロモルフィックデータセットで SNN と ANN の物体検出における性能ギャップを埋められるか。
  • RQ2I-LIF による整数値トレーニングは量子化誤差を十分に低減し、スパイク駆動推論を損なうことなく検出精度を改善できるか。
  • RQ3効果的な SNN ベースの物体検出のためにどのようなアーキテクチャ的適応(ブロック設計と検出ヘッド)が必要か。
  • RQ4タイムステップ(T)と最大整数活性値(D)は COCO および Gen1 データセットで性能とエネルギー消費にどのような影響を与えるか。

主な発見

  • SpikeYOLO は COCO 2017 val で 66.2% mAP@50 および 48.9% mAP@50:95 を達成し、従来の SNN よりそれぞれ 15.0% および 18.7% 上回る。
  • Gen1 ニューロモルフィックデータセットでは SpikeYOLO は 67.2% mAP@50 を達成し、同等アーキテクチャの ANN を 2.5% 上回り、約 5.7 倍のエネルギー効率を提供する。
  • I-LIF ニューロンは整数活性化でトレーニングし拡張仮想タイムステップを介してスパイクへ変換することで量子化誤差を低減し、スパイク駆動推論を可能にする。
  • アーキテクチャ的アブレーションにより YOLO モジュールの単純化と meta SNN ブロックの使用が、直接的な ANN-to-SNN 変換やより複雑な SNN 設計よりも大幅な改善をもたらす。
  • 量子化パラメータの研究は、最大整数値 D を増やすと量子化誤差が低減し、タイムステップを単に増やすよりも精度を改善できることを示し、エネルギーにも重要な影響を与える。
  • SpikeYOLO は COCO で強力な結果を示しつつ比較可能な ANN モデルより低いエネルギー消費を維持し、Gen1 でも優れた性能と顕著なエネルギー効率の向上を示す。
Figure 2 : Comparison of I-LIF and LIF. Binary spikes are emitted by LIF during both training and inference processes, which results in quantization errors. I-LIF emits integer values during the training process to reduce quantization errors, and converts them into binary spikes during inference to
Figure 2 : Comparison of I-LIF and LIF. Binary spikes are emitted by LIF during both training and inference processes, which results in quantization errors. I-LIF emits integer values during the training process to reduce quantization errors, and converts them into binary spikes during inference to

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。