Skip to main content
QUICK REVIEW

[논문 리뷰] Some Considerations on Learning to Explore via Meta-Reinforcement Learning

Bradly C. Stadie, Ge Yang|arXiv (Cornell University)|2018. 03. 03.
Reinforcement Learning in Robotics참고 문헌 31인용 수 71
한 줄 요약

논문은 메타-강화학습을 각 작업의 샘플링 분포를 신속하게 형성하는 학습으로 재구성하고, E-MAML과 E-RL²의 두 가지 알고리즘을 도입하여 Krazy World와 미로 과제에서 이점들을 시연한다.

ABSTRACT

We consider the problem of exploration in meta reinforcement learning. Two new meta reinforcement learning algorithms are suggested: E-MAML and E-$ ext{RL}^2$. Results are presented on a novel environment we call `Krazy World' and a set of maze environments. We show E-MAML and E-$ ext{RL}^2$ deliver better performance on tasks where exploration is important.

연구 동기 및 목표

  • 새로운 환경에서 좋은 작업별 샘플링 분포를 빠르게 찾는 것을 학습으로 보는 메타-강화학습의 해석.
  • 적응 중 탐색을 최적화하는 gradient-based 메타-learning 알고리즘(E-MAML)과 그 RL² 확장(E-RL²)을 도출한다.
  • 고차원 Krazy World 환경과 미로 과제에서 방법을 시연하여 전이 및 적응 속도를 평가한다.

제안 방법

  • 정책을 상태의 샘플링 분포로 취급하고 이 분포가 빠른 적응을 어떻게 지원하는지 최적화한다.
  • 적응 후 미래 보상에 대한 영향을 고려하기 위해 초기 샘플링 분포에 대해 메타-RL 목적 함수를 미분한다( Eq. 3 ).
  • 두 항 그래디언트 표현을 도출하는데, 이는 outer 메타 업데이트에 영향을 주는 탐색 항을 포함한다( Eq. 4 ).
  • E-MAML을 적응 중 샘플링 영향력을 명시적으로 고려하는 그래디언트 기반 메타러닝 변형으로 정의한다.
  • Explore/Exploit 롤아웃 방식으로 샘플링을 미분하도록 RL² 프레임워크를 수정하고 backpropagation 중 Explore-롤아웃의 보상을 0으로 처리하여 E-RL²를 개발한다.
  • Krazy World(고차원이며 동적으로 변하는 작업)와 미로 환경에서 샘플링 미분과 전이를 테스트하기 위해 평가한다.

실험 결과

연구 질문

  • RQ1개별 작업의 샘플링 과정을 미분하는 것이 메타-학습의 적응 속도와 강건성을 향상시킬 수 있는가?
  • RQ2E-MAML과 E-RL²가 Krazy World와 미로와 같은 도전적 작업 분포에서 baselines MAML 및 RL²보다 더 빠른 수렴과 더 나은 전이성을 제공하는가?
  • RQ3초기 샘플링 분포를 고려하는 것이 메타-RL에서 탐색 행동 및 시스템 식별에 어떤 영향을 미치는가?
  • RQ4제안된 프레임워크가 고차원이고 동적으로 변하는 환경에서 우수한 탐색 주도 메타러닝을 보여주는가?

주요 결과

  • Krazy World에서 E-MAML은 MAML보다 더 빠르게 수렴하고 두 방법 모두 최종 성능은 양호하며; E-RL²은 최종 성능이 최고에 도달하지만 초기 분산이 더 큼.
  • Krazy World에서 E-RL²는 일반적으로 학습 말미에 baselines보다 우수한 성능을 보이나 RL²는 높은 분산과 때때로 불안정한 성능을 보인다.
  • 미로 환경에서 RL² 및 E-RL²은 MAML 및 E-MAML보다 성능이 우수하며 기억과 더 긴 탐색의 이점을 활용한다.
  • RL² 변형은 시간이 지남에 따라 더 많은 미로를 해결하는 경향이 있어 미로에서 기억 기반 탐색의 이점을 나타낸다.
  • 전반적으로 제안된 방법은 baselines에 비해 초기 이득이 더 빨라지고 탐색 커버리지가 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.