[논문 리뷰] Training Spiking Neural Networks with Local Tandem Learning
로컬 Local Tandem Learning (LTL)은 계층별 로컬 손실로 중간 ANN 특징을 모방하여 깊은 스파이킹 신경망을 학습시키고, CIFAR-10/100 및 Tiny ImageNet에서 ANN에 비해 경쟁력 있는 정확도와 함께 빠른 수렴 및 하드웨어 친화적인 온칩 학습을 가능하게 한다.
Spiking neural networks (SNNs) are shown to be more biologically plausible and energy efficient over their predecessors. However, there is a lack of an efficient and generalized training method for deep SNNs, especially for deployment on analog computing substrates. In this paper, we put forward a generalized learning rule, termed Local Tandem Learning (LTL). The LTL rule follows the teacher-student learning approach by mimicking the intermediate feature representations of a pre-trained ANN. By decoupling the learning of network layers and leveraging highly informative supervisor signals, we demonstrate rapid network convergence within five training epochs on the CIFAR-10 dataset while having low computational complexity. Our experimental results have also shown that the SNNs thus trained can achieve comparable accuracies to their teacher ANNs on CIFAR-10, CIFAR-100, and Tiny ImageNet datasets. Moreover, the proposed LTL rule is hardware friendly. It can be easily implemented on-chip to perform fast parameter calibration and provide robustness against the notorious device non-ideality issues. It, therefore, opens up a myriad of opportunities for training and deployment of SNN on ultra-low-power mixed-signal neuromorphic computing chips.10
연구 동기 및 목표
- 아날로그 뉴로모픽 기판에서 작동할 수 있는 일반화되고 하드웨어 친화적인 방법으로 깊은 SNN을 학습시키는 것을 제공한다.
- SNN 계층 표현을 사전 학습된 ANN 특징과 정렬하여 교사-학생 지식 이전을 활용한다.
- CIFAR-10에서 다섯 번의 학습 에폭 이내의 빠른 수렴과 낮은 계산 복잡도를 달성한다.
- CIFAR-10, CIFAR-100 및 Tiny ImageNet에서 LTL 학습 SNN의 경쟁력 있는 정확도를 입증한다.
- 온라인, 온칩 학습을 통한 하드웨어 비완전성에 대한 LTL의 강건성을 보여준다.
제안 방법
- Local Tandem Learning (LTL)이라는 교사-학생에서 영감을 받은 규칙을 제안하는데, SNN이 ANN의 중간 표현을 계층별 로컬 손실을 통해 모방한다.
- ANN 활성화와 정규화된 SNN 방출률 간의 평균 제곱 오차를 이용해 계층별 학습을 이끄는 오프라인 LTL(BPTT를 로컬 손실에 적용)을 사용한다.
- 이동 평균 방출률을 사용한 시간적으로 로컬한 손실이 있는 온라인 LTL 변형을 채택하여 온칩, 메모리 효율적인 학습을 가능하게 한다.
- 비분화 가능한 스파이킹 활성에 대해 박스카 derivative를 갖는 대리 기울기 방법을 적용하여 경사 기반 업데이트를 가능하게 한다.
- 업데이트가 게이트되고 계층 로컬 오류에 의해 공급되는 온칩 학습 회로 설계를 제공하여 메모리 및 하드웨어 요구를 줄인다.
- 여러 신경 모형(IF 및 LIF)과 오프라인 및 온라인 학습 규범 모두와의 호환성을 보여준다.
실험 결과
연구 질문
- RQ1Local Tandem Learning이 계층 로컬 손실로 SNN이 ANN 특징 표현을 효과적으로 뉴런 수준으로 이전할 수 있는가?
- RQ2LTL이 CIFAR-10/100 및 Tiny ImageNet에서 깊은 SNN에 대해 빠른 수렴과 높은 정확도를 가능하게 하는가?
- RQ3메모리, 시간 복잡도 및 하드웨어 강건성 측면에서 LTL이 STBP 및 다른 SNN 학습 방법과 어떻게 비교되는가?
- RQ4온라인 LTL이 장치 비정합성, 양자화 및 소음과 같은 하드웨어 비이상성에 대한 강건성을 갖고 칩 내 학습에 적합한가?
- RQ5다양한 스파이킹 뉴런 모델(IF 및 LIF)과 서로 다른 시간 창 크기에서도 LTL이 성능을 유지하는가?
주요 결과
- LTL은 빠른 수렴을 달성하며, 오프라인 및 온라인 변형은 CIFAR-10에서 VGG-11/16 아키텍처에 대해 다섯 에폭 내에 수렴한다.
- LTL 학습된 SNN은 IF 및 LIF 모델에서 CIFAR-10, CIFAR-100 및 Tiny ImageNet에 대해 교사 ANN과 유사한 정확도에 도달한다.
- 온라인 LTL은 메모리 및 시간 복잡도를 크게 줄여, 전체 시간 기록을 저장하지 않고도 온칩 로컬 학습을 가능하게 한다.
- LTL은 칩 내 보정에 의해 장치 불일치, 양자화, 열 소음, 뉴런 차단 등의 하드웨어 관련 노이즈에 대해 강건함을 보여준다.
- STBP 및 다른 방법과 비교해 LTL은 깊이에 따른 그래디언트 누적 오차를 줄이고 연산 비용이 낮은 채로 경쟁력 있는 정확도를 유지한다.
- LTL은 동일한 정확도에 도달하기 위해 ANN 대비 SynOps가 더 적게 필요하므로 뉴로모픽 하드웨어에서 에너지 효율의 이점을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.