[논문 리뷰] Surprise-Based Intrinsic Motivation for Deep Reinforcement Learning
이 논문은 학습된 전이 모델을 통해 놀람 기반의 내재적 보상을 도입하여 심층 강화학습에서 탐험을 촉진하고, surprisal과 k-step 학습 진척도를 보상으로 사용하며, 연속 제어 및 Atari RAM 작업 전반에 걸쳐 탐험 능력을 향상시켰다.
Exploration in complex domains is a key challenge in reinforcement learning, especially for tasks with very sparse rewards. Recent successes in deep reinforcement learning have been achieved mostly using simple heuristic exploration strategies such as $ε$-greedy action selection or Gaussian control noise, but there are many tasks where these methods are insufficient to make any learning progress. Here, we consider more complex heuristics: efficient and scalable exploration strategies that maximize a notion of an agent's surprise about its experiences via intrinsic motivation. We propose to learn a model of the MDP transition probabilities concurrently with the policy, and to form intrinsic rewards that approximate the KL-divergence of the true transition probabilities from the learned model. One of our approximations results in using surprisal as intrinsic motivation, while the other gives the $k$-step learning progress. We show that our incentives enable agents to succeed in a wide range of environments with high-dimensional state spaces and very sparse rewards, including continuous control tasks and games in the Atari RAM domain, outperforming several other heuristic exploration techniques.
연구 동기 및 목표
- 희박한 보상 환경에서 심층 RL의 탐험을 촉진한다.
- 진짜 전이 역학과 학습된 전이 역학 사이의 불일치를 기반으로 확장 가능한 내재적 보상을 개발한다.
- 탐험을 이끌기 위해 정책과 함께 전이 모델을 동시 학습한다.
- VIME를 포함한 기존 탐험 방법들과 surprisal 및 k-step 학습 진척 인센티브를 비교한다.
제안 방법
- 진실된 P와 학습된 P_phi 사이의 KL-발산으로 내재적 보상을 형식화하고 두 가지 확장 가능한 근사를 도출한다.
- Surprisal 사용: 내재적 보상이 -log P_phi(s'|s,a)에 비례하도록 한다.
- k-step 학습 진척 사용: 내재적 보상이 log P_phi_t(s'|s,a) - log P_phi_{t-k}(s'|s,a)에 기반한다.
- 정규화 및 KL-발산 제약(Eq. 11)을 포함한 감독형 유사 손실로 P_phi 전이 모델을 공동 업데이트한다.
- 정책을 업데이트하여 환경 보상과 더불어 true와 학습된 역학 간의 기대 KL에 eta를 곱한 값을 최대화(Eq. 2)한다.
- 내재적 보상이 제한되도록 eta를 조정하고 안정성을 위해 보너스를 정규화한다.
실험 결과
연구 질문
- RQ1놀람과 학습 진척이 내재적 보상으로서 고차원적이고 희박 보상 DRL 설정에서 탐험을 개선하는가?
- RQ2이러한 내재적 인센티브가 연속 제어와 Atari RAM 도메인에서 VIME 및 L2 모델 예측 오차와 같은 기존 방법들과 어떻게 비교되는가?
- RQ3단일 순방향 전이 모델이 결정론적 및 확률적 동역학을 포함한 다양한 작업에서 확장 가능하고 강건한 내재적 동기를 제공할 수 있는가?
- RQ4작업 전반에서 학습 진척 보너스에 대한 k의 영향은 무엇인가?
주요 결과
- Surprisal 인센티브는 연속 제어 및 Atari RAM 도메인을 포함한 광범위한 작업에서 견고하고 향상된 탐험을 제공합니다.
- k-단계 학습 진척은 일부 작업에서 도움이 되지만 환경 및 k 값에 따라 surprisal보다 저조할 수 있습니다.
- Surprisal은 종종 L2 모델 예측 오차를 능가하고 더 낮은 계산 비용으로 VIME과 경쟁합니다.
- 이 방법은 완전히 요인화된 가우시안 동역학 모델 및 순전파를 사용하여 VIME보다 속도 향상을 제공합니다.
- Surprisal은 SwimmerGather 및 Venture-RAM과 같은 더 어려운 작업에서 일반적으로 다른 내재적 동기 베이스라인을 능가합니다.
- 단순 탐색이 실패하는 상황에서도 surprisal은 효과적이며 희박 보상 환경에서 의미 있는 탐험을 주도합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.