Skip to main content
QUICK REVIEW

[논문 리뷰] Episodic Curiosity through Reachability

Nikolay Savinov, Anton Raichuk|arXiv (Cornell University)|2018. 10. 04.
Reinforcement Learning in Robotics참고 문헌 29인용 수 162
한 줄 요약

이 논문은 episodic memory 기반 도달성 예측기를 통해 dense 탐험 보너스를 제공하는 episodic curiosity를 도입하여 3D 환경에서 sparse-reward 강화학습의 성능을 개선합니다. VizDoom/DMLab에서 ICM보다 우수하며 MuJoCo에서 첫-인-퍼슨 뷰의 curiosity를 가능하게 합니다.

ABSTRACT

Rewards are sparse in the real world and most of today's reinforcement learning algorithms struggle with such sparsity. One solution to this problem is to allow the agent to create rewards for itself - thus making rewards dense and more suitable for learning. In particular, inspired by curious behaviour in animals, observing something novel could be rewarded with a bonus. Such bonus is summed up with the real task reward - making it possible for RL algorithms to learn from the combined reward. We propose a new curiosity method which uses episodic memory to form the novelty bonus. To determine the bonus, the current observation is compared with the observations in memory. Crucially, the comparison is done based on how many environment steps it takes to reach the current observation from those in memory - which incorporates rich information about environment dynamics. This allows us to overcome the known "couch-potato" issues of prior work - when the agent finds a way to instantly gratify itself by exploiting actions which lead to hardly predictable consequences. We test our approach in visually rich 3D environments in ViZDoom, DMLab and MuJoCo. In navigational tasks from ViZDoom and DMLab, our agent outperforms the state-of-the-art curiosity method ICM. In MuJoCo, an ant equipped with our curiosity module learns locomotion out of the first-person-view curiosity only.

연구 동기 및 목표

  • episodic curiosity 모듈을 도입하여 dense exploration 보너스를 생성함으로써 sparse-reward 강화학습에 대처한다.
  • 도달성(도달 거리: 환경 단계 수)을 기반으로 과거 관찰과 현재 관찰을 비교하기 위해 episodic memory를 활용한다.
  • novelty를 정량화하기 위해 도달성 네트워크와 임베딩/비교자 쌍을 학습한다.
  • couch-potato 행동에 robust하고 VizDoom, DMLab, MuJoCo 과제의 탐험을 개선한다.

제안 방법

  • siamese 임베딩 네트워크 E와 비교자 C를 사용하여 reachability 네트워크 R(o_i, o_j)=C(E(o_i), E(o_j))를 형성한다.
  • 에피소드 내 과거 임베딩의 episodic memory M을 유지한다; novelty b가 임계치를 넘으면 현재 관찰을 저장한다.
  • memory reachability에서 예상된 메모리 항목까지의 거리 의존 함수 B(M, e)에 의해 b를 계산하고, 이를 통해 작업 보상 r에 b를 보강한다.
  • 관찰 쌍을 시퀀스에서 추출해 R-네트워크를 학습한다; positives는 k 이내에 시간적으로 가까운 쌍, negatives는 더 멀리 떨어진 쌍이며 로지스틱 회귀 손실을 사용한다.
  • PPO에 보너스를 작업 보상에 추가하여 통합한다; 정책 학습 중 온라인 또는 오프라인으로 R-네트워크를 학습할지 여부를 선택적으로 결정한다.
  • VizDoom, DMLab, MuJoCo 설정에서 PPO baselines, PPO+ICM 및 Grid Oracle과 비교한다.

실험 결과

연구 질문

  • RQ1도달성 기반 episodic memory가 prediction-error 기반 방법에서 나타나는 couch-potato 현상을 피하는 견고한 curiosity 신호를 제공하는가?
  • RQ2episodic curiosity가 sparse-reward 3D 환경에서 학습 효율성과 최종 성능을 state-of-the-art 베이스라인과 비교하여 향상시키는가?
  • RQ3프로시듀럴하게 생성된 매우 가변적인 레벨과 보상이 없는 탐험 시나리오에서 접근법의 성능은 어떠한가?
  • RQ4dense-reward 과제에서 curiosity 신호가 성능을 해치지 않고 호환되는가?
  • RQ5연속 제어 도메인(MuJoCo)에서 1인칭 뷰 curiosity로 일반화할 수 있는가?

주요 결과

MethodSparseVery SparseSparse+DoorsNo RewardNo Reward - FireDense 1Dense 2
PPO27.0 ± 5.18.6 ± 4.31.5 ± 0.1191 ± 12217 ± 1922.8 ± 0.59.41 ± 0.02
PPO + ICM23.8 ± 2.811.2 ± 3.92.7 ± 0.272 ± 287 ± 320.9 ± 0.69.39 ± 0.02
PPO + EC (ours)26.2 ± 1.924.7 ± 2.28.5 ± 0.6475 ± 8492 ± 1019.9 ± 0.79.53 ± 0.03
PPO + ECO (ours)41.6 ± 1.740.5 ± 1.119.8 ± 0.5472 ± 18457 ± 3222.9 ± 0.49.60 ± 0.02
PPO + Grid Oracle56.7 ± 1.354.3 ± 1.229.4 ± 0.5796 ± 2795 ± 320.9 ± 0.68.97 ± 0.04
  • EC는 VizDoom 및 DMLab 내비게이션 과제에서 ICM 베이스라인보다 우수합니다.
  • 프로시듀얼로 생성된 DMLab 레벨에서 EC는 sparse 타깃에 대해 ICM 대비 최소 2배 더 높은 성공률을 보입니다.
  • 노 보상(no-reward) 탐험에서도 EC는 ICM보다 훨씬 더 넓은 영역을 커버합니다(no-reward/no-fire 변형에서 ICM은 어려움을 보임).
  • dense-reward DMLab 과제에서 EC는 베이스라인에 비해 PPO 성능을 크게 저하시키지 않습니다.
  • MuJoCo의 개미가 EC 보상 신호만으로 1인칭 뷰에서 운동을 학습합니다.
  • 모든 벤치마크에서 EC는 이전 curiosity 방법들보다 더 빠른 수렴과 더 견고한 탐험을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.