Skip to main content
QUICK REVIEW

[논문 리뷰] Randomized Prior Functions for Deep Reinforcement Learning

Ian Osband, John Aslanides|arXiv (Cornell University)|2018. 06. 08.
Reinforcement Learning in Robotics참고 문헌 6인용 수 105
한 줄 요약

이 논문은 표준 에이전트–환경 루프 내에서 탐색을 향상시키기 위해 randomized prior functions를 제안합니다.

ABSTRACT

Dealing with uncertainty is essential for efficient reinforcement learning. There is a growing literature on uncertainty estimation for deep learning from fixed datasets, but many of the most popular approaches are poorly-suited to sequential decision problems. Other methods, such as bootstrap sampling, have no mechanism for uncertainty that does not come from the observed data. We highlight why this can be a crucial shortcoming and propose a simple remedy through addition of a randomized untrainable `prior' network to each ensemble member. We prove that this approach is efficient with linear representations, provide simple illustrations of its efficacy with nonlinear representations and show that this approach scales to large-scale problems far better than previous attempts.

연구 동기 및 목표

  • randomized priors를 사용하여 깊은 강화학습에서 탐색을 향상시키는 동기를 부여합니다.
  • randomized prior functions가 표준 DRL 학습 루프에 통합되는 방법을 설명합니다.
  • 리플레이 버퍼 사용을 포함한 agent–환경 상호작용 워크플로를 개요합니다.

제안 방법

  • act, update_buffer, learn_from_buffer 메서드를 가진 에이전트를 정의합니다.
  • 에이전트가 각 반복에서 버퍼로부터 학습하는 에피소드를 실행합니다.
  • 새로운 전이(트랜지션)를 얻기 위해 환경을 재설정한 다음, 현재 상태에서 agent.act를 통해 행동을 결정합니다.
  • 환경의 step으로 행동을 적용하고 결과 전이를 agent.update_buffer로 저장합니다.
  • 에피소드를 반복하여 버퍼링된 전이로부터 지속적으로 학습합니다.

실험 결과

연구 질문

  • RQ1randomized prior functions가 깊은 강화학습에서 탐색 효율성을 향상시키나요?
  • RQ2표준 DRL 학습 루프 내에서 randomized priors가 학습 안정성과 샘플 효율성에 미치는 영향은 무엇인가요?

주요 결과

  • 제공된 발췌문에 포함되지 않습니다.
  • 제공된 텍스트에는 양적 결과가 제시되어 있지 않습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.