Skip to main content
QUICK REVIEW

[논문 리뷰] Benchmarking Batch Deep Reinforcement Learning Algorithms

Scott Fujimoto, Edoardo Conti|arXiv (Cornell University)|2019. 10. 03.
Reinforcement Learning in Robotics참고 문헌 42인용 수 160
한 줄 요약

이 논문은 고정된 Atari 배치 설정에서 오프폴리시 및 배치 DRL 알고리즘을 벤치마크하고, 이전 방법을 능가하는 이산 행동 BCQ 변형을 도입하며, 종종 행동 정책과 같거나 그 이상을 달성한다.

ABSTRACT

Widely-used deep reinforcement learning algorithms have been shown to fail in the batch setting--learning from a fixed data set without interaction with the environment. Following this result, there have been several papers showing reasonable performances under a variety of environments and batch settings. In this paper, we benchmark the performance of recent off-policy and batch reinforcement learning algorithms under unified settings on the Atari domain, with data generated by a single partially-trained behavioral policy. We find that under these conditions, many of these algorithms underperform DQN trained online with the same amount of data, as well as the partially-trained behavioral policy. To introduce a strong baseline, we adapt the Batch-Constrained Q-learning algorithm to a discrete-action setting, and show it outperforms all existing algorithms at this task.

연구 동기 및 목표

  • 현재 오프폴리시 및 배치 DRL 알고리즘이 통합된 Atari 배치 설정에서 어떻게 수행하는지 평가합니다.
  • 이산 행동 환경에서 추정 오차와 안정성을 평가합니다.
  • 고정 데이터 시나리오에서 이산 배치 DRL에 대한 강력하고 간단한 기준선을 식별합니다.

제안 방법

  • 단일 10M 전이 배치로 Atari 설정에서 여러 배치 DRL 알고리즘(QR-DQN, REM, BCQ, KL-Control, SPIBB-DQN)을 검토하고 구현합니다.
  • 강력한 기준선으로 작용하도록 BCQ를 이산 행동에 맞게 조정합니다.
  • 가치 추정치 및 게임 간 안정성 분석을 통해 추정 오차를 진단합니다.
  • 9개의 Atari 게임에서 온라인 DQN 및 배치에서 파생된 행동 정책과 비교합니다.

실험 결과

연구 질문

  • RQ1단일 행동 정책 배치 설정에서 표준 오프폴리시 DRL 방법이 Atari에서 잘 작동하는가?
  • RQ2BCQ와 같은 배치/제약 방법이 이산 행동 배치 RL에서 견고한 성능을 제공하는가?
  • RQ3이산 배치 RL에서 추정 오차가 어떻게 나타나며, 분포적 또는 제약된 접근 방식이 이를 완화하는가?
  • RQ4이 설정에서 이산 행동 BCQ의 상대적 성능은 기존의 배치 RL 알고리즘과 어떤 차이가 있는가?

주요 결과

  • 단일 행동 정책 배치 설정에서 표준 오프폴리시 DRL 알고리즘은 온라인 DQN 및 행동 정책보다 성능이 떨어진다.
  • QR-DQN은 종종 DQN보다 우수하지만 일반적으로 소음이 있는 행동 정책보다 여전히 못하다.
  • 배치 RL 방법인 BCQ가 다른 방법보다 우수하고 종종 노이즈가 없는 행동 정책과 일치하거나 능가한다.
  • KL-Control은 초기 성과가 강하지만 게임 전반에 걸쳐 강건하지 않으며 가치 발산으로 인해 여러 경우 실패한다.
  • 이산 행동 BCQ 변형은 이 설정에서 테스트된 배치 DRL 방법들 중에서 최첨단 결과를 달성했다.
  • 안정적인 가치 추정치가 더 나은 배치 학습 성능과 상관관계가 있으며, 추정 오차 완화가 중요함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.