[논문 리뷰] Training spiking multi-layer networks with surrogate gradients on an analog neuromorphic substrate
이 논문은 유사 도함수를 사용하여 아날로그 BrainScales-2 뉴로모픽 칩에서 스파iking 다층 네트워크를 하드웨어-인-더-로프 트레이닝하는 방법을 제안한다. 하드웨어에서 순방향 전파를 실행하고 소프트웨어에서 역전파를 계산함으로써, 이 방법은 낮은 전력 소비(<300 mW)와 높은 처리량(초당 70,000개 패턴)을 바탕으로 높은 정확도(97.5% MNIST)를 달성하며, 아날로그 기반에서 효율적이고 희박하며 에너지 인식적인 스파이킹 네트워크 처리를 실현한다.
Spiking neural networks are nature's solution for parallel information processing with high temporal precision at a low metabolic energy cost. To that end, biological neurons integrate inputs as an analog sum and communicate their outputs digitally as spikes, i.e., sparse binary events in time. These architectural principles can be mirrored effectively in analog neuromorphic hardware. Nevertheless, training spiking neural networks with sparse activity on hardware devices remains a major challenge. Primarily this is due to the lack of suitable training methods that take into account device-specific imperfections and operate at the level of individual spikes instead of firing rates. To tackle this issue, we developed a hardware-in-the-loop strategy to train multi-layer spiking networks using surrogate gradients on the analog BrainScales-2 chip. Specifically, we used the hardware to compute the forward pass of the network, while the backward pass was computed in software. We evaluated our approach on downscaled 16x16 versions of the MNIST and the fashion MNIST datasets in which spike latencies encoded pixel intensities. The analog neuromorphic substrate closely matched the performance of equivalently sized networks implemented in software. It is capable of processing 70 k patterns per second with a power consumption of less than 300 mW. Added activity regularization resulted in sparse network activity with about 20 spikes per input, at little to no reduction in classification performance. Thus, overall, our work demonstrates low-energy spiking network processing on an analog neuromorphic substrate and sets several new benchmarks for hardware systems in terms of classification accuracy, processing speed, and efficiency. Importantly, our work emphasizes the value of hardware-in-the-loop training and paves the way toward energy-efficient information processing on non-von-Neumann architectures.
연구 동기 및 목표
- 스파이킹 신경망을 아날로그 뉴로모픽 하드웨어에서 희박한 스파이크 기반 활동으로 훈련하는 도전 과제를 해결한다.
- 화성 빈도에 의존하고 장치 특성에 따른 오차를 忽略하는 기존 훈련 방법의 한계를 극복한다.
- 하드웨어와 소프트웨어 계산을 통합하여 딥 스파이킹 네트워크를 아날로그 뉴로모픽 기반에서 엔드 투 엔드로 훈련할 수 있도록 한다.
- 비-바나흐 전산 프레임워크인 이벤트 기반 컴퓨팅 환경에서 높은 분류 정확도, 낮은 전력 소비, 높은 처리 속도를 달성한다.
제안 방법
- 순방향 전파를 아날로그 BrainScales-2 뉴로모픽 칩에서 실행하고, 역전파를 소프트웨어에서 유사 도함수를 사용하여 계산하는 하드웨어-인-더-로프 훈련 전략을 적용한다.
- MNIST 및 패션 MNIST 데이터셋의 픽셀 강도를 스파이크 지연 시간으로 인코딩하여 스파이킹 네트워크에서 시간적 인코딩을 가능하게 한다.
- 비미분 가능한 스파이크 생성 뉴런을 통해 오차 신호를 역전파할 수 있도록 유사 도함수를 사용하며, 스파이크의 이산성에도 불구하고 엔드 투 엔드 훈련을 가능하게 한다.
- 활동 정규화를 적용하여 네트워크 활동을 희박하게 만들고, 성능 저하 없이 평균 스파이크 수를 약 20개로 줄인다.
- 유사 도함수를 적용한 시간에 따라 역전파하는 백프로파게이션을 사용하여 아날로그 하드웨어 제약 조건에 맞게 다층 스파이킹 네트워크를 훈련한다.
- 계산 부담을 줄이면서도 분류 정밀도를 유지하기 위해 MNIST 및 패션 MNIST의 축소된 16x16 형태를 평가에 사용한다.
실험 결과
연구 질문
- RQ1장치 특성에 따른 오차가 존재하는 아날로그 뉴로모픽 기반에서, 유사 도함수 기반 역전파가 깊은 스파이킹 신경망 훈련에 효과적으로 적용될 수 있는가?
- RQ2동일한 데이터셋에서 소프트웨어 기반 구현과 비교해 하드웨어-인-더-로프 훈련이 분류 정확도를 얼마나 잘 유지하는가?
- RQ3아날로그 뉴로모픽 하드웨어는 처리 속도와 전력 소비 측면에서 스파이킹 패턴을 얼마나 효율적으로 처리할 수 있는가?
- RQ4활동 정규화가 MNIST 및 패션 MNIST 데이터셋에서 분류 성능을 저하시키지 않으면서도 약 20개의 스파이크(입력당)의 희박한 스파이크 활동을 달성할 수 있는가?
- RQ5아날로그 뉴로모픽 하드웨어에서 직접 스파이킹 네트워크를 훈련할 경우, 에너지 효율성, 처리 속도, 정확도 사이의 상호 상충 관계는 어떠한가?
주요 결과
- 하드웨어-인-더-로프 훈련 전략은 16x16 MNIST 데이터셋에서 97.5%의 분류 정확도를 달성했으며, 소프트웨어 기반 구현과 동일한 성능을 보였다.
- 시스템은 300 mW 미만의 전력 소비로 초당 70,000개 패턴을 처리하여 높은 처리 효율성을 입증했다.
- 활동 정규화는 평균 네트워크 활동을 입력당 약 20개의 스파이크로 성공적으로 줄였으며, 높은 분류 정확도를 유지했다.
- 아날로그 뉴로모픽 기반은 소프트웨어 기반 대안과 거의 동일한 성능를 보였으며, 스파이킹 네트워크 훈련에 적합함을 입증했다.
- 이 방법은 하드웨어 기반 스파이킹 신경망 시스템에서 분류 정확도, 처리 속도, 에너지 효율성의 새로운 기준을 설정했다.
- 결과적으로, 유사 도함수를 사용한 하드웨어 기반 직접 훈련을 통해 깊은 스파이킹 네트워크를 아날로그 뉴로모픽 하드웨어에서 훈련할 수 있음을 입증하였으며, 에너지 효율적이고 비-바나흐 컴퓨팅의 길을 열었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.