[논문 리뷰] Benchmarking Batch Deep Reinforcement Learning Algorithms
이 논문은 고정된 Atari 배치 설정에서 오프폴리시 및 배치 DRL 알고리즘을 벤치마크하고, 이전 방법을 능가하는 이산 행동 BCQ 변형을 도입하며, 종종 행동 정책과 같거나 그 이상을 달성한다.
Widely-used deep reinforcement learning algorithms have been shown to fail in the batch setting--learning from a fixed data set without interaction with the environment. Following this result, there have been several papers showing reasonable performances under a variety of environments and batch settings. In this paper, we benchmark the performance of recent off-policy and batch reinforcement learning algorithms under unified settings on the Atari domain, with data generated by a single partially-trained behavioral policy. We find that under these conditions, many of these algorithms underperform DQN trained online with the same amount of data, as well as the partially-trained behavioral policy. To introduce a strong baseline, we adapt the Batch-Constrained Q-learning algorithm to a discrete-action setting, and show it outperforms all existing algorithms at this task.
연구 동기 및 목표
- 현재 오프폴리시 및 배치 DRL 알고리즘이 통합된 Atari 배치 설정에서 어떻게 수행하는지 평가합니다.
- 이산 행동 환경에서 추정 오차와 안정성을 평가합니다.
- 고정 데이터 시나리오에서 이산 배치 DRL에 대한 강력하고 간단한 기준선을 식별합니다.
제안 방법
- 단일 10M 전이 배치로 Atari 설정에서 여러 배치 DRL 알고리즘(QR-DQN, REM, BCQ, KL-Control, SPIBB-DQN)을 검토하고 구현합니다.
- 강력한 기준선으로 작용하도록 BCQ를 이산 행동에 맞게 조정합니다.
- 가치 추정치 및 게임 간 안정성 분석을 통해 추정 오차를 진단합니다.
- 9개의 Atari 게임에서 온라인 DQN 및 배치에서 파생된 행동 정책과 비교합니다.
실험 결과
연구 질문
- RQ1단일 행동 정책 배치 설정에서 표준 오프폴리시 DRL 방법이 Atari에서 잘 작동하는가?
- RQ2BCQ와 같은 배치/제약 방법이 이산 행동 배치 RL에서 견고한 성능을 제공하는가?
- RQ3이산 배치 RL에서 추정 오차가 어떻게 나타나며, 분포적 또는 제약된 접근 방식이 이를 완화하는가?
- RQ4이 설정에서 이산 행동 BCQ의 상대적 성능은 기존의 배치 RL 알고리즘과 어떤 차이가 있는가?
주요 결과
- 단일 행동 정책 배치 설정에서 표준 오프폴리시 DRL 알고리즘은 온라인 DQN 및 행동 정책보다 성능이 떨어진다.
- QR-DQN은 종종 DQN보다 우수하지만 일반적으로 소음이 있는 행동 정책보다 여전히 못하다.
- 배치 RL 방법인 BCQ가 다른 방법보다 우수하고 종종 노이즈가 없는 행동 정책과 일치하거나 능가한다.
- KL-Control은 초기 성과가 강하지만 게임 전반에 걸쳐 강건하지 않으며 가치 발산으로 인해 여러 경우 실패한다.
- 이산 행동 BCQ 변형은 이 설정에서 테스트된 배치 DRL 방법들 중에서 최첨단 결과를 달성했다.
- 안정적인 가치 추정치가 더 나은 배치 학습 성능과 상관관계가 있으며, 추정 오차 완화가 중요함을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.