QUICK REVIEW

[논문 리뷰] Surprise-Based Intrinsic Motivation for Deep Reinforcement Learning

Joshua Achiam, S. Shankar Sastry|arXiv (Cornell University)|2017. 03. 06.

Reinforcement Learning in Robotics참고 문헌 14인용 수 100

한 줄 요약

이 논문은 학습된 전이 모델을 통해 놀람 기반의 내재적 보상을 도입하여 심층 강화학습에서 탐험을 촉진하고, surprisal과 k-step 학습 진척도를 보상으로 사용하며, 연속 제어 및 Atari RAM 작업 전반에 걸쳐 탐험 능력을 향상시켰다.

ABSTRACT

Exploration in complex domains is a key challenge in reinforcement learning, especially for tasks with very sparse rewards. Recent successes in deep reinforcement learning have been achieved mostly using simple heuristic exploration strategies such as $ε$-greedy action selection or Gaussian control noise, but there are many tasks where these methods are insufficient to make any learning progress. Here, we consider more complex heuristics: efficient and scalable exploration strategies that maximize a notion of an agent's surprise about its experiences via intrinsic motivation. We propose to learn a model of the MDP transition probabilities concurrently with the policy, and to form intrinsic rewards that approximate the KL-divergence of the true transition probabilities from the learned model. One of our approximations results in using surprisal as intrinsic motivation, while the other gives the $k$-step learning progress. We show that our incentives enable agents to succeed in a wide range of environments with high-dimensional state spaces and very sparse rewards, including continuous control tasks and games in the Atari RAM domain, outperforming several other heuristic exploration techniques.

연구 동기 및 목표

희박한 보상 환경에서 심층 RL의 탐험을 촉진한다.
진짜 전이 역학과 학습된 전이 역학 사이의 불일치를 기반으로 확장 가능한 내재적 보상을 개발한다.
탐험을 이끌기 위해 정책과 함께 전이 모델을 동시 학습한다.
VIME를 포함한 기존 탐험 방법들과 surprisal 및 k-step 학습 진척 인센티브를 비교한다.

제안 방법

진실된 P와 학습된 P_phi 사이의 KL-발산으로 내재적 보상을 형식화하고 두 가지 확장 가능한 근사를 도출한다.
Surprisal 사용: 내재적 보상이 -log P_phi(s'|s,a)에 비례하도록 한다.
k-step 학습 진척 사용: 내재적 보상이 log P_phi_t(s'|s,a) - log P_phi_{t-k}(s'|s,a)에 기반한다.
정규화 및 KL-발산 제약(Eq. 11)을 포함한 감독형 유사 손실로 P_phi 전이 모델을 공동 업데이트한다.
정책을 업데이트하여 환경 보상과 더불어 true와 학습된 역학 간의 기대 KL에 eta를 곱한 값을 최대화(Eq. 2)한다.
내재적 보상이 제한되도록 eta를 조정하고 안정성을 위해 보너스를 정규화한다.

실험 결과

연구 질문

RQ1놀람과 학습 진척이 내재적 보상으로서 고차원적이고 희박 보상 DRL 설정에서 탐험을 개선하는가?
RQ2이러한 내재적 인센티브가 연속 제어와 Atari RAM 도메인에서 VIME 및 L2 모델 예측 오차와 같은 기존 방법들과 어떻게 비교되는가?
RQ3단일 순방향 전이 모델이 결정론적 및 확률적 동역학을 포함한 다양한 작업에서 확장 가능하고 강건한 내재적 동기를 제공할 수 있는가?
RQ4작업 전반에서 학습 진척 보너스에 대한 k의 영향은 무엇인가?

주요 결과

Surprisal 인센티브는 연속 제어 및 Atari RAM 도메인을 포함한 광범위한 작업에서 견고하고 향상된 탐험을 제공합니다.
k-단계 학습 진척은 일부 작업에서 도움이 되지만 환경 및 k 값에 따라 surprisal보다 저조할 수 있습니다.
Surprisal은 종종 L2 모델 예측 오차를 능가하고 더 낮은 계산 비용으로 VIME과 경쟁합니다.
이 방법은 완전히 요인화된 가우시안 동역학 모델 및 순전파를 사용하여 VIME보다 속도 향상을 제공합니다.
Surprisal은 SwimmerGather 및 Venture-RAM과 같은 더 어려운 작업에서 일반적으로 다른 내재적 동기 베이스라인을 능가합니다.
단순 탐색이 실패하는 상황에서도 surprisal은 효과적이며 희박 보상 환경에서 의미 있는 탐험을 주도합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.