Skip to main content
QUICK REVIEW

[논문 리뷰] Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection

Xinhao Luo, Man Yao|arXiv (Cornell University)|2024. 07. 30.
Advanced Memory and Neural Computing인용 수 5
한 줄 요약

SpikeYOLO를 제시한다. Spike Neural Network 접근법으로 정수형 Leaky Integrate-and-Fire(I-LIF) 뉴런과 간소화된 YOLO 기반 아키텍처를 사용하여 정적 및 뉴로모픽 데이터셋에서 낮은 전력으로 높은 객체 탐지 정확도를 달성한다.

ABSTRACT

Brain-inspired Spiking Neural Networks (SNNs) have bio-plausibility and low-power advantages over Artificial Neural Networks (ANNs). Applications of SNNs are currently limited to simple classification tasks because of their poor performance. In this work, we focus on bridging the performance gap between ANNs and SNNs on object detection. Our design revolves around network architecture and spiking neuron. First, the overly complex module design causes spike degradation when the YOLO series is converted to the corresponding spiking version. We design a SpikeYOLO architecture to solve this problem by simplifying the vanilla YOLO and incorporating meta SNN blocks. Second, object detection is more sensitive to quantization errors in the conversion of membrane potentials into binary spikes by spiking neurons. To address this challenge, we design a new spiking neuron that activates Integer values during training while maintaining spike-driven by extending virtual timesteps during inference. The proposed method is validated on both static and neuromorphic object detection datasets. On the static COCO dataset, we obtain 66.2% mAP@50 and 48.9% mAP@50:95, which is +15.0% and +18.7% higher than the prior state-of-the-art SNN, respectively. On the neuromorphic Gen1 dataset, we achieve 67.2% mAP@50, which is +2.5% greater than the ANN with equivalent architecture, and the energy efficiency is improved by 5.7*. Code: https://github.com/BICLab/SpikeYOLO

연구 동기 및 목표

  • 객체 탐지를 위한 ANN과 SNN 간 성능 격차를 해소한다.
  • 복잡한 CNN 모듈을 SNN 형태로 변환할 때의 스파이크 저하를 줄인다.
  • SNN의 양자화 오차를 완화하기 위한 정수 값 학습을 도입한다.
  • 배포 중 에너지 효율성을 유지하기 위해 스파이크 구동 추론을 가능하게 한다.

제안 방법

  • SpikeYOLO를 제시한다. 메타 SNN 블록과 통합된 YOLOv8의 간소화된 매크로 설계를 통해 강력한 스파이크 기반 특징 추출을 확보한다.
  • 정수 값 활성화를 학습하고 추론 시 이진 스파이크로 변환하여 양자화 오차를 줄이는 정수 값 스파이킹 뉴런인 I-LIF를 도입한다.
  • 추론 시 확장된 가상 타임스텝을 사용해 정수 활성화를 스파이크 구동 계산에 매핑한다.
  • 정적 이미지와 뉴로모픽 이벤트 스트림에 대한 입력 처리를 조정하고, 두 개의 특수 SNN 블록(SNN-Block-1 및 SNN-Block-2)을 갖춘 SpikeYOLO 아키텍처를 포함한다.
  • 정적 COCO 2017 val 및 뉴로모픽 Gen1 데이터셋에서 평가하고, mAP 및 에너지 효율성 측면에서 이전 SNN 및 ANN과 비교한다.
Figure 1 : The overall architecture of SpikeYOLO. We designed two SNN blocks, SNN-Block-1 and SNN-Block-2, and kept other architectures remain as YOLOv8. SNN-Block-1 employs standard convolution within its $\rm{ChannelConv\left(\cdot\right)}$ component, whereas SNN-Block-2 utilizes re-parameterizati
Figure 1 : The overall architecture of SpikeYOLO. We designed two SNN blocks, SNN-Block-1 and SNN-Block-2, and kept other architectures remain as YOLOv8. SNN-Block-1 employs standard convolution within its $\rm{ChannelConv\left(\cdot\right)}$ component, whereas SNN-Block-2 utilizes re-parameterizati

실험 결과

연구 질문

  • RQ1SpikeYOLO가 표준 및 뉴로모픽 데이터셋에서 객체 탐지를 위한 SNN과 ANN 간의 성능 격차를 줄일 수 있는가?
  • RQ2I-LIF를 통한 정수 값 학습이 양자화 오차를 충분히 줄여 탐지 정확도를 개선하고 스파이크 구동 추론을 해치지 않는가?
  • RQ3효과적인 SNN 기반 객체 탐지를 위한 필요한 아키텍처적 적응(블록 설계 및 탐지 헤드)은 무엇인가?
  • RQ4타임스텝(T)와 최대 정수 활성화 값(D)이 COCO 및 Gen1 데이터셋에서 성능과 에너지 소비에 어떤 영향을 미치는가?

주요 결과

  • SpikeYOLO는 COCO 2017 val에서 66.2% mAP@50, 48.9% mAP@50:95를 달성하여 이전 SNN보다 각각 15.0% 및 18.7%를 상회한다.
  • Gen1 뉴로모픽 데이터셋에서 SpikeYOLO는 67.2% mAP@50을 달성해 동일 구조의 ANN보다 2.5% 앞서고 약 5.7배의 에너지 효율을 제공한다.
  • I-LIF 뉴런은 정수 활성화로 학습하고 확장된 가상 타임스텝으로 스파이크로 변환해 양자화 오차를 줄이고 스파이크 구동 추론을 가능하게 한다.
  • 아키텍처적 차감 실험은 YOLO 모듈을 단순화하고 메타 SNN 블록을 사용하면 직접적인 ANN-에서 SNN으로의 변환보다 큰 이득과 더 복잡한 SNN 설계보다도 큰 이득이 있음을 보여준다.
  • 양자화 매개변수 연구는 최대 정수 값 D를 늘리는 것이 종종 양자화 오차를 줄이고 타임스텝 T를 단순히 증가시키는 것보다 정확도를 더 잘 향상시킬 수 있으며, 에너지 측면에서도 중요한 시사점을 가진다.
  • SpikeYOLO는 COCO에서 강력한 결과를 달성하면서 비교 가능한 ANN 모델 대비 낮은 에너지 소비를 유지하고 Gen1에서도 에너지 효율성 증가가 크게 나타난다.
Figure 2 : Comparison of I-LIF and LIF. Binary spikes are emitted by LIF during both training and inference processes, which results in quantization errors. I-LIF emits integer values during the training process to reduce quantization errors, and converts them into binary spikes during inference to
Figure 2 : Comparison of I-LIF and LIF. Binary spikes are emitted by LIF during both training and inference processes, which results in quantization errors. I-LIF emits integer values during the training process to reduce quantization errors, and converts them into binary spikes during inference to

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.