[논문 리뷰] Temporal Efficient Training of Spiking Neural Network via Gradient Re-weighting
본 논문은 Spike-Neural Networks(SNNs)에 대해 그래디언트 재가중치를 활용한 Temporal Efficient Training(TET)을 도입하여 일반화 및 시간적 확장성을 향상시키고, 신경모사 및 정적 데이터셋에서 최첨단 결과를 달성했으며, DVS-CIFAR10에서 83.17% top-1을 포함한다.
Recently, brain-inspired spiking neuron networks (SNNs) have attracted widespread research interest because of their event-driven and energy-efficient characteristics. Still, it is difficult to efficiently train deep SNNs due to the non-differentiability of its activation function, which disables the typically used gradient descent approaches for traditional artificial neural networks (ANNs). Although the adoption of surrogate gradient (SG) formally allows for the back-propagation of losses, the discrete spiking mechanism actually differentiates the loss landscape of SNNs from that of ANNs, failing the surrogate gradient methods to achieve comparable accuracy as for ANNs. In this paper, we first analyze why the current direct training approach with surrogate gradient results in SNNs with poor generalizability. Then we introduce the temporal efficient training (TET) approach to compensate for the loss of momentum in the gradient descent with SG so that the training process can converge into flatter minima with better generalizability. Meanwhile, we demonstrate that TET improves the temporal scalability of SNN and induces a temporal inheritable training for acceleration. Our method consistently outperforms the SOTA on all reported mainstream datasets, including CIFAR-10/100 and ImageNet. Remarkably on DVS-CIFAR10, we obtained 83$\%$ top-1 accuracy, over 10$\%$ improvement compared to existing state of the art. Codes are available at \url{https://github.com/Gus-Lab/temporal_efficient_training}.
연구 동기 및 목표
- 대체 기울기(SG)로 직접 학습된 SNN의 일반화 한계를 동기화한다.
- 각 시간 t의 출력과 그래디언트 신호를 정렬하고 더 평탄한 최솟값을 촉진하도록 Temporal Efficient Training (TET)을 제안한다.
- TET이 시간적 확장성을 향상시키고 훈련 시간을 줄이기 위한 Time Inheritance Training (TIT)을 가능하게 함을 보인다.
- 정적 및 신경모사 데이터셋(예: CIFAR-10/100, ImageNet, DVS-CIFAR10)에서 최첨단 성능을 입증한다.
제안 방법
- 스파이킹 신경망(SNN)을 위한 Spike/막 동역학이 있는 반복적 Leaky Integrate-and-Fire (LIF) 모델을 채택한다.
- 표준 직접 학습 손실을 각 시간 t에서 교차 엔트로피를 통해 시간별 출력(output)을 최적화하는 L_TET로 대체한다.
- 훈련을 안정화하기 위해 각 시간 단의 출력을 제약하는 정규화 항 L_MSE를 도입한다.
- SDT와 TET가 서로 다른 손실 지형을 가져오며, TET가 더 평탄한 최소값으로 수렴하는 것을 보인다.
- 짧은 시뮬레이션 길이에서 학습을 부트스트래핑하기 위해 Time Inheritance Training (TIT)을 도입하고 점진적으로 T를 확장한다.
- 전통적 SDT 손실(L_SDT)을 L_TET와 Jensen/AM-GM 부등식을 통해 상한하는 손실 형식을 제공한다.
- 추론 규칙은 변경되지 않고; 학습 손실만 수정된다.
실험 결과
연구 질문
- RQ1대체 기울기 기반 직접 학습(SDT)이 SNN을 TET에 비해 날카로운 국소최솟값에 빠뜨리는가?
- RQ2시간-단위별 학습 손실(L_TET)이 더 평탄한 최소값과 더 나은 일반화를 이끌 수 있는가?
- RQ3Time Inheritance Training(TIT)이 정확도를 유지하거나 향상시키면서 훈련 시간을 줄일 수 있는가?
- RQ4정적 데이터셋(CIFAR-10/100, ImageNet)과 신경모사 데이터(DVS-CIFAR10)에서 TET의 성능이 최첨단 방법들과 비교하여 어떤가?
주요 결과
- 여러 네트워크와 데이터셋에서 SDT with SG에 비해 TET가 정확도를 크게 향상시킴(예: CIFAR-100의 ResNet-19).
- 로컬 최소점에서 TET의 손실 지형은 SDT보다 더 평탄하며, 이는 더 나은 일반화를 시사한다.
- 훈련 중 SDT에서 TET로 전환하면 날카로운 로컬 최소점을 벗어나 테스트 성능을 향상시킬 수 있다.
- Time Inheritance Training(TIT)은 시뮬레이션 길이가 증가함에 따라 특히 정확도를 유지하거나 향상시키면서 훈련 시간을 대략 절반으로 줄인다.
- VGGSNN과 augmentation 없이 DVS-CIFAR10에서 TET은 83.17% top-1 정확도를 달성했고, 이는 이전 SOTA보다 10포인트 이상 높으며, augmentation을 사용할 때도 83.17%가 보고된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.