Skip to main content
QUICK REVIEW

[논문 리뷰] Combining Q-Learning and Search with Amortized Value Estimates

Jessica B. Hamrick, Victor Bapst|arXiv (Cornell University)|2020. 04. 30.
Reinforcement Learning in Robotics참고 문헌 46인용 수 17
한 줄 요약

SAVE는 상태-행동 값에 대한 학습된 사전 확률을 사용하여 Q-학습과 몽테카를로 트리 탐색(MCTS)을 통합함으로써 탐색을 안내하고, 이를 통해 향상된 Q-추정치를 도출한다. 이 추정치는 다시 사전 확률을 갱신하는 데 사용된다. 이는 MCTS 계산을 분산 처리함으로써 더 빠른 학습과 최소한의 탐색 예산에서도 뛰어난 성능을 달성할 수 있도록 한다.

ABSTRACT

We introduce with Amortized Value Estimates (SAVE), an approach for combining model-free Q-learning with model-based Monte-Carlo Tree Search (MCTS). In SAVE, a learned prior over state-action values is used to guide MCTS, which estimates an improved set of state-action values. The new Q-estimates are then used in combination with real experience to update the prior. This effectively amortizes the value computation performed by MCTS, resulting in a cooperative relationship between model-free learning and model-based search. SAVE can be implemented on top of any Q-learning agent with access to a model, which we demonstrate by incorporating it into agents that perform challenging physical reasoning tasks and Atari. SAVE consistently achieves higher rewards with fewer training steps, and---in contrast to typical model-based search approaches---yields strong performance with very small search budgets. By combining real experience with information computed during search, SAVE demonstrates that it is possible to improve on both the performance of model-free learning and the computational cost of planning.

연구 동기 및 목표

  • 강화학습에서 모델 기반 계획의 계산 비용을 줄이면서도 높은 샘플 효율성을 유지하는 것.
  • 모델 자유형 Q-학습과 모델 기반 탐색을 결합하여 딥 강화학습의 샘플 효율성과 학습 속도를 향상시키는 것.
  • 매우 작은 탐색 예산에서도 뛰어난 성능을 달성할 수 있도록 하여 전통적인 모델 기반 접근 방식의 핵심 한계를 극복하는 것.
  • 모델 자유형 갱신과 모델 기반 탐색 간의 상호 보완적 학습 루프를 구축하기 위해 가치 추정을 분산 처리하는 것.

제안 방법

  • 학습된 상태-행동 값 사전 확률을 사용하여 몽테카를로 트리 탐색(MCTS)을 안내함으로써 탐색 효율성을 향상시킴.
  • MCTS는 사전 확률과 환경의 동역학을 기반으로 향상된 상태-행동 값 추정치를 계산함.
  • MCTS로부터 도출된 향상된 Q-추정치를 실제 경험과 결합하여 Q-학습을 통해 사전 네트워크를 갱신함.
  • 이 과정은 탐색이 학습을 향상시키고 학습이 탐색 안내를 향상시키는 피드백 루프를 형성함.
  • 이 방법은 모듈식이며, 모델에 액세스할 수 있는 모든 Q-학습 에이전트에 통합될 수 있음.
  • 탐색에서 유도된 가치 추정치는 여러 학습 업데이트에 걸쳐 재사용되어 단계당 계산 비용을 감소시킴.

실험 결과

연구 질문

  • RQ1모델 자유형 Q-학습과 모델 기반 탐색을 조합함으로써 강화학습에서 샘플 효율성을 향상시킬 수 있는가?
  • RQ2MCTS 계산을 어떻게 분산 처리하여 성능을 유지하면서 계획 비용을 줄일 수 있는가?
  • RQ3학습된 사전 확률을 사용하여 탐색을 안내함으로써 매우 작은 탐색 예산에서도 뛰어난 성능을 달성할 수 있는가?
  • RQ4탐색과 학습 간의 상호 보완적 루프는 더 빠른 수렴과 더 높은 최종 수익을 이끌어내는가?

주요 결과

  • SAVE는 물리적 추론 작업과 Atari 환경을 비롯한 다양한 환경에서 기준 Q-학습 에이전트보다 더 높은 누적 수익을 달성함.
  • 수렴 속도가 현저히 빨라, 최고 성능에 도달하기 위해 필요한 학습 단계 수가 적음.
  • 매우 작은 탐색 예산에서도 강력한 성능 유지를 보이며, 이러한 제약 조건 하에서 표준 모델 기반 접근 방식을 능가함.
  • 탐색에서 유도된 가치 추정치를 실제 경험과 융합함으로써 더 정확하고 안정적인 Q-값 추정이 가능해짐.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.