[논문 리뷰] Deep Intrinsic Surprise-Regularized Control (DISRC): A Biologically Inspired Mechanism for Efficient Deep Q-Learning in Sparse Environments
DISRC는 DQN에 잠재 공간 놀람 신호를 가미하여 Q-업데이트를 동적으로 스케일링하고, 희소 보상 환경에서 학습 효율성과 안정성을 향상시킨다. MiniGrid 과제에서 초기 수렴이 더 빠르고 일관성이 더 높음을 보인다.
Deep reinforcement learning (DRL) has driven major advances in autonomous control. Still, standard Deep Q-Network (DQN) agents tend to rely on fixed learning rates and uniform update scaling, even as updates are modulated by temporal-difference (TD) error. This rigidity destabilizes convergence, especially in sparse-reward settings where feedback is infrequent. We introduce Deep Intrinsic Surprise-Regularized Control (DISRC), a biologically inspired augmentation to DQN that dynamically scales Q-updates based on latent-space surprise. DISRC encodes states via a LayerNorm-based encoder and computes a deviation-based surprise score relative to a moving latent setpoint. Each update is then scaled in proportion to both TD error and surprise intensity, promoting plasticity during early exploration and stability as familiarity increases. We evaluate DISRC on two sparse-reward MiniGrid environments, which included MiniGrid-DoorKey-8x8 and MiniGrid-LavaCrossingS9N1, under identical settings as a vanilla DQN baseline. In DoorKey, DISRC reached the first successful episode (reward > 0.8) 33% faster than the vanilla DQN baseline (79 vs. 118 episodes), with lower reward standard deviation (0.25 vs. 0.34) and higher reward area under the curve (AUC: 596.42 vs. 534.90). These metrics reflect faster, more consistent learning - critical for sparse, delayed reward settings. In LavaCrossing, DISRC achieved a higher final reward (0.95 vs. 0.93) and the highest AUC of all agents (957.04), though it converged more gradually. These preliminary results establish DISRC as a novel mechanism for regulating learning intensity in off-policy agents, improving both efficiency and stability in sparse-reward domains. By treating surprise as an intrinsic learning signal, DISRC enables agents to modulate updates based on expectation violations, enhancing decision quality when conventional value-based methods fall short.
연구 동기 및 목표
- 희소 보상에서 딥 Q-학습의 샘플 효율성과 안정성을 개선하는 것을 동기 부여한다.
- 내부 놀람에 기반하여 업데이트 크기를 조절하는 생물학적으로 영감을 받은 메커니즘을 도입한다.
- 희소한 MiniGrid 과제에서 DISRC를 일반 DQN과 대조 평가하고 학습 속도와 안정성의 이득을 정량화한다.
- 잠재 공간 편차를 이동 설정점으로 조절하여 학습 역학을 제어하는 방법을 시연한다.
제안 방법
- Observation을 64차원 잠재 공간으로 매핑하는 LayerNorm 기반 인코더를 도입한다.
- 이동 잠재 설정점에 대한 편차로부터 잠재 공간 놀람 점수를 계산한다.
- TD 오차와 놀람 강도 모두를 이용해 각 Q-업데이트의 규모를 스케일링한다.
- 놀람 기반 용어로 외부 보상을 조정하여 학습 업데이트에 영향을 준다.
- 경험 재생과 소프트 타깃 업데이트를 포함한 DISRC 구성 요소를 통합한 일반 DQN 프레임워크로 학습한다.
실험 결과
연구 질문
- RQ1DISRC가 희소 보상 환경에서 일반 DQN에 비해 샘플 효율성을 개선하는가?
- RQ2잠재 공간 놀람 조절이 더 안정적인 학습과 보상 분산 감소를 가져오는가?
- RQ3DISRC가 MiniGrid 과제에서 수렴 속도와 최종 성능에 어떤 영향을 미치는가?
- RQ4내부 놀람 신호 도입의 트레이드오프와 계산적 고려사항은 무엇인가?
- RQ5DISRC가 MiniGrid 벤치마크 내의 다양한 희소 보상 시나리오로 일반화할 수 있는가?
주요 결과
- MiniGrid-DoorKey-8x8에서 DISRC는 DQN보다 79 에피소드에서 성공적인 에피소드를 달성해 초기 수렴 속도가 118보다 빨랐다(33% 더 빨름).
- DoorKey에서 DISRC는 DQN(0.34)보다 표준 보상 편차가 낮은 0.25를 보였다.
- DoorKey에서 DISRC는 DQN(534.90)보다 AUC가 더 높은 596.42를 달성했다.
- MiniGrid-LavaCrossingS9N1에서 DISRC는 최종 평균 보상 0.95로 DQN(0.93)보다 높았다.
- LavaCrossing에서 DISRC는 AUC가 최고치 957.04로 DQN(934.82)보다 높았으나 수렴은 더 점진적이었다.
- DISRC는 두 환경에서 장기 일반화와 학습 곡선의 안정성을 더 강하게 보여주었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.