Skip to main content
QUICK REVIEW

[논문 리뷰] Planning to Explore via Self-Supervised World Models

R. Sekar, Oleh Rybkin|arXiv (Cornell University)|2020. 05. 12.
Reinforcement Learning in Robotics참고 문헌 48인용 수 60
한 줄 요약

Plan2Explore은 잠재 세계 모델과 앙상블 기반 계획을 이용한 자기감독 탐색으로 미래의 참신성을 추구한 후, 모델 내부의 상상을 통해 다운스트림 태스크에 제로샷 혹은 파샷으로 적응한다.

ABSTRACT

Reinforcement learning allows solving complex tasks, however, the learning tends to be task-specific and the sample efficiency remains a challenge. We present Plan2Explore, a self-supervised reinforcement learning agent that tackles both these challenges through a new approach to self-supervised exploration and fast adaptation to new tasks, which need not be known during exploration. During exploration, unlike prior methods which retrospectively compute the novelty of observations after the agent has already reached them, our agent acts efficiently by leveraging planning to seek out expected future novelty. After exploration, the agent quickly adapts to multiple downstream tasks in a zero or a few-shot manner. We evaluate on challenging control tasks from high-dimensional image inputs. Without any training supervision or task-specific interaction, Plan2Explore outperforms prior self-supervised exploration methods, and in fact, almost matches the performances oracle which has access to rewards. Videos and code at https://ramanans1.github.io/plan2explore/

연구 동기 및 목표

  • 작업별 탐색 신호 없이도 보지 못한 작업으로 일반화되는 데이터 효율적인 강화 학습을 고무한다.
  • 사후 대신 미래의 참신성을 적극적으로 추구하는 자가감독 탐색 전략을 개발한다.
  • 고차원 이미지 입력으로부터 탐색과 다운스트림 작업 계획을 모두 지원하는 글로벌 잠재 세계 모델을 학습한다.
  • 세계 모델 내부에서 상상된 롤아웃을 사용하여 여러 다운스트림 보상 함수에 신속하게 적응할 수 있도록 한다.

제안 방법

  • 이미지 관측에 대해 ELBO로 학습된 잠재 역학 모델(CNN 인코더, RSSM 기반의 후방과 전방, 보상 예측기, 이미지 디코더)을 사용한다.
  • 잠재적 불일치로 불확실성을 추정하기 위해 한 단계 예측기의 부트스트랩 앙상블을 학습한다.
  • 앙상블 불일치로 근사된 기대 정보 이득을 최대화하도록 세계 모델 내부에서 탐색 정책을 학습한다.
  • 모델 내부에서 Dreamer로 미래 잠재 상태를 상상하고 탐색 정책을 최적화하여 탐색을 계획한다.
  • 탐색 후 보상 예측기를 사용하여 세계 모델 안에서 상상을 통해 다운스트림 작업 정책을 학습하여 제로샷 또는 파샷 적응을 가능하게 한다.

실험 결과

연구 질문

  • RQ1잠재적 불일치를 통한 탐색 계획이 모델프리 및 다른 모델 기반 내부 보상에 비해 제로샷 태스크 성능이 우수한가?
  • RQ2Plan2Explore가 감독된 태스크 특정 성능에 도달하거나 이를 상회하기 위해 필요한 태스크 특정 상호작용은 얼마나 되는가?
  • RQ3자기감독 모델이 같은 환경 내에서 보지 못한 태스크에 더 잘 일반화하는가?
  • RQ4미래의 기대 참신성을 최대화하는 이점은 무엇인가?

주요 결과

  • Plan2Explore은 픽셀 입력으로부터 20개의 도전적인 제어 태스크에서 최첨단 제로샷 성능을 달성한다.
  • 제로샷 성능은 탐색 중 보상에 접근하는 감독된 오라클과 경쟁력이 있으며, 일부 태스크에서는 이를 능가한다.
  • 1,000회의 탐색 에피소드와 적응을 위한 100–150회의 감독 에피소드로, Plan2Explore은 여러 태스크에서 Dreamer와 동등하거나 우수한 성능을 보인다.
  • Plan2Explore은 다수의 다운스트림 태스크에 일반화되는 글로벌 세계 모델을 학습하는 반면, 태스크 특이적 모델은 일반화에 실패한다.
  • 잠재 불일치를 통한 기대 미래 참신성의 최대화가 회상형 참신성 접근법보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.