Skip to main content
QUICK REVIEW

[논문 리뷰] Model-Based Active Exploration

Pranav Shyam, Wojciech Jaśkowski|arXiv (Cornell University)|2018. 10. 29.
Reinforcement Learning in Robotics참고 문헌 42인용 수 42
한 줄 요약

MAX는 예측 포워드 모델들의 앙상블을 사용하여 예측된 미래들 간의 불일치를 측정함으로써 학습 가능한 미지의 영역을 적극적으로 찾고, 이로써 이산적 및 연속적 환경에서 효율적인 탐색을 가능하게 하며 반응적 baselines에 비해 데이터 효율성을 향상시킵니다.

ABSTRACT

Efficient exploration is an unsolved problem in Reinforcement Learning which is usually addressed by reactively rewarding the agent for fortuitously encountering novel situations. This paper introduces an efficient active exploration algorithm, Model-Based Active eXploration (MAX), which uses an ensemble of forward models to plan to observe novel events. This is carried out by optimizing agent behaviour with respect to a measure of novelty derived from the Bayesian perspective of exploration, which is estimated using the disagreement between the futures predicted by the ensemble members. We show empirically that in semi-random discrete environments where directed exploration is critical to make progress, MAX is at least an order of magnitude more efficient than strong baselines. MAX scales to high-dimensional continuous environments where it builds task-agnostic models that can be used for any downstream task.

연구 동기 및 목표

  • 고차원 RL 환경에서 반응적 탐색의 비효율성을 동기 부여하고 해결합니다.
  • 모델 간 불일치를 기반으로 한 원칙적이고 베이esian에서 영감을 받은 탐색 목표를 제안합니다.
  • 부트스트랩 앙상블과 실용 가능한 발산 측정치를 개발하여 새로움을 추정합니다.
  • 하위 작업을 위한 재사용 가능한 작업 비특화 다이나믹스 모델을 구축하는 탐색을 가능하게 합니다.

제안 방법

  • 앞으로의 모델들의 앙상블에 걸친 다음 상태 분포의 Jensen-Shannon Divergence (JSD)로 측정된 정보 이득을 최대화하는 탐색으로 형식화합니다.
  • 경험 데이터로 학습된 부트스트랩 앙상블을 사용해 환경 다이나믹스에 대한 사전 정보를 근사합니다.
  • 탐색 MDP를 유틸리티 u(s,a)가 앙상블 예측 간의 불일치와 같은 정의로 설정합니다.
  • u(s,a)를 앙상블 평균 엔트로피 차이(JSD)로 계산하고, 연속 공간의 경우 Jensen-Rényi Divergence(제곱 르니 엔트로피)를 사용합니다.
  • 노이즈가 있는 환경에서 모델 불확실성에 대한 민감도를 조정하기 위해 온도 보정 분산 한계를 사용합니다.
  • 매 단계에서 내부 계획 문제(Explore MDP)를 해결해 탐색 정책을 도출하고, 그다음 실제 데이터를 수집해 앙상블을 업데이트합니다.

실험 결과

연구 질문

  • RQ1학습 가능한 미지에 초점을 맞춰 탐색을 적극적으로 계획하기 위해 앞으로의 모델들의 앙상블을 사용할 수 있을까요?
  • RQ2발산 기반 유틸리티(JSD/JRD)가 이산적 및 연속적 설정에서 반응적 탐색 보너스와 어떤 차이가 있나요?
  • RQ3MAX가 고차원 연속 환경에 확장되며 하위 작업에 대한 데이터 효율성을 향상시키나요?

주요 결과

  • 이산 Chain 환경에서 MAX는 약 15회 에피소드 만에 전체 전이의 100%를 탐색하고, 반응적 baseline은 60회 에피소드에서 40%에 도달합니다.
  • Ant Maze 연속 환경에서 MAX는 약 40회 에피소드(12k 스텝)로 미로의 먼 끝에 도달하여 반응적 baseline보다 우수합니다.
  • Half Cheetah에서 MAX로 수집된 데이터는 모델 기반 RL로 활용할 때 반응적 baseline에 비해 하위 작업에서 더 나은 성능을 이끕니다.
  • MAX와 TVAX(둘 다 능동 방법)는 Ant Maze 및 Half Cheetah와 같은 연속 도메인에서 반응적 방법(JDRX, PERX)보다 더 우수한 성능을 보이며, 특히 MAX의 성능이 강합니다.
  • 이 방법은 학습 가능한 불확실성과 학습 불가능한 노이즈를 구분하고, 환경이 확률적이거나 노이즈가 있는 다이나믹스를 포함하더라도 강건성을 유지합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.