Skip to main content
QUICK REVIEW

[논문 리뷰] Training slow silicon neurons to control extremely fast robots with spiking reinforcement learning

Irene Ambrosini, Ingo Blakowski|arXiv (Cornell University)|2026. 01. 29.
Advanced Memory and Neural Computing인용 수 0
한 줄 요약

본 논문은 1020 DYNAP-SE 뉴런을 이용한 실시간 하드웨어-인-루프 뉴로모픽 강화학습으로 빠른 에어-퍽 상호작용을 제어하며, 온라인 학습과 고정된 무작위 리저버 연결성을 통해 다양한 조건에서 96–98%의 높은 성공률을 달성한다.

ABSTRACT

Air hockey demands split-second decisions at high puck velocities, a challenge we address with a compact network of spiking neurons running on a mixed-signal analog/digital neuromorphic processor. By co-designing hardware and learning algorithms, we train the system to achieve successful puck interactions through reinforcement learning in a remarkably small number of trials. The network leverages fixed random connectivity to capture the task's temporal structure and adopts a local e-prop learning rule in the readout layer to exploit event-driven activity for fast and efficient learning. The result is real-time learning with a setup comprising a computer and the neuromorphic chip in-the-loop, enabling practical training of spiking neural networks for robotic autonomous systems. This work bridges neuroscience-inspired hardware with real-world robotic control, showing that brain-inspired approaches can tackle fast-paced interaction tasks while supporting always-on learning in intelligent machines.

연구 동기 및 목표

  • 밀리와트 예산 하에서 자율 로봇 공학을 위한 에너지 효율적 온라인 학습에 대한 동기를 부여한다.
  • 뉴로모픽 RL이 게임 벤치마크에서 실제 시간의 물리적 조작 작업으로 확장될 수 있음을 보여준다.
  • 6D 연속 상태 제어 시나리오에서 고정된 무작위 리저버와 로컬 e-prop 읽기 출력으로 강건한 학습을 시연한다.

제안 방법

  • 온라인 학습과 함께 50 Hz로 폐루프 추론을 수행하기 위해 DYNAP-SE 혼합 신호 뉴로모픽 칩을 사용한다.
  • 6개의 상태 변수를 고정된 리저버에서 처리되는 1020 AdEx-LIF 뉴런의 집단 스파이크 코드로 인코딩한다.
  • 전역 보상 신호를 사용하여 e-prop 규칙으로 업데이트되는 가소성 읽기 가중치를 가진 두 액션 읽기를 구현한다.
  • 감지 후 20 ms 시점의 읽기 활성화에 대해 소프트맥스 값을 계산하여 행동을 결정하고, 환경은 이 행동 확률을 받는다.
  • 앞쪽으로의 퍽 움직임과 정밀한 타이밍을 촉진하는 스칼라 보상 형상을 사용하여 2000 에피소드에 걸쳐 훈련한다.
  • 인코딩 범위의 변화와 무작위 리저버 샘플 간의 성능을 비교하여 강건성과 일반화를 평가한다.
Figure 1: Control pipeline and environment. Top-left: High-level flow from MuJoCo (puck $[x_{p},y_{p},v_{x},v_{y}]$ and end-effector $[x_{ee},y_{ee}]$ ) through the decision module to the robot controller. The CPU encodes sensory data into spike trains, processed by DYNAP-SE’ silicon neurons, then d
Figure 1: Control pipeline and environment. Top-left: High-level flow from MuJoCo (puck $[x_{p},y_{p},v_{x},v_{y}]$ and end-effector $[x_{ee},y_{ee}]$ ) through the decision module to the robot controller. The CPU encodes sensory data into spike trains, processed by DYNAP-SE’ silicon neurons, then d

실험 결과

연구 질문

  • RQ1고정된 무작위 리저버를 가지는 뉴로모픽 강화학습이 6D 연속 로봇 작업에서 강건하고 빠른 제어를 달성할 수 있는가?
  • RQ2로컬 가소성(e-prop)에 의한 온라인, 칩상 학습이 실시간 하드웨어-인-루프 설정에서 고성능 제어에 충분한가?
  • RQ3빠른 조작 작업에서 인코딩 범위와 리저버 무작위성이 수렴 속도와 최종 성능에 어떻게 영향을 미치는가?

주요 결과

  • 로봇 프레임으로부터 1.0 m 위치에서 정지한 퍽에 대해 200회 시도 이내 100% 성공.
  • 상수 속도 측면 발동에 대해 1000 에피소드 만에 100% 성공.
  • 속도 변동(v in [1.0,1.5] m/s) 하에서 1300–1500 에피소드 후 96–98% 성공으로 안정화.
  • 인코딩 범위 테스트는 좁은 범위 [0.7,0.9] m/s에서 약 150 에피소드에 대해 >97% 성공, 중간 범위 [0.7,1.2] m/s에서 약 700 에피소드에 대해 약 97% 성능, 넓은 범위 [0.7,1.5] m/s에서는 약 93%로 97%에서 약 4% 하락.
  • 1020 실리콘 뉴런이 하드웨어-인-루프 학습과 함께 6D 연속 상태 공간에서 강건하고 밀리초 정밀도의 인터셉션을 가능하게 함을 보여준다.
Figure 2: Neuromorphic learning masters interception timing and generalizes robustly. (a) Timing acquisition: Pre-training (dashed) shows erratic actions; post-training (solid) achieves immediate, low-variance interceptions, reflecting learned timing. (b) Policy evolution: Stochastic switching betwe
Figure 2: Neuromorphic learning masters interception timing and generalizes robustly. (a) Timing acquisition: Pre-training (dashed) shows erratic actions; post-training (solid) achieves immediate, low-variance interceptions, reflecting learned timing. (b) Policy evolution: Stochastic switching betwe

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.