QUICK REVIEW

[논문 리뷰] Benchmarking Batch Deep Reinforcement Learning Algorithms

Scott Fujimoto, Edoardo Conti|arXiv (Cornell University)|2019. 10. 03.

Reinforcement Learning in Robotics참고 문헌 42인용 수 160

한 줄 요약

이 논문은 고정된 Atari 배치 설정에서 오프폴리시 및 배치 DRL 알고리즘을 벤치마크하고, 이전 방법을 능가하는 이산 행동 BCQ 변형을 도입하며, 종종 행동 정책과 같거나 그 이상을 달성한다.

ABSTRACT

Widely-used deep reinforcement learning algorithms have been shown to fail in the batch setting--learning from a fixed data set without interaction with the environment. Following this result, there have been several papers showing reasonable performances under a variety of environments and batch settings. In this paper, we benchmark the performance of recent off-policy and batch reinforcement learning algorithms under unified settings on the Atari domain, with data generated by a single partially-trained behavioral policy. We find that under these conditions, many of these algorithms underperform DQN trained online with the same amount of data, as well as the partially-trained behavioral policy. To introduce a strong baseline, we adapt the Batch-Constrained Q-learning algorithm to a discrete-action setting, and show it outperforms all existing algorithms at this task.

연구 동기 및 목표

현재 오프폴리시 및 배치 DRL 알고리즘이 통합된 Atari 배치 설정에서 어떻게 수행하는지 평가합니다.
이산 행동 환경에서 추정 오차와 안정성을 평가합니다.
고정 데이터 시나리오에서 이산 배치 DRL에 대한 강력하고 간단한 기준선을 식별합니다.

제안 방법

단일 10M 전이 배치로 Atari 설정에서 여러 배치 DRL 알고리즘(QR-DQN, REM, BCQ, KL-Control, SPIBB-DQN)을 검토하고 구현합니다.
강력한 기준선으로 작용하도록 BCQ를 이산 행동에 맞게 조정합니다.
가치 추정치 및 게임 간 안정성 분석을 통해 추정 오차를 진단합니다.
9개의 Atari 게임에서 온라인 DQN 및 배치에서 파생된 행동 정책과 비교합니다.

실험 결과

연구 질문

RQ1단일 행동 정책 배치 설정에서 표준 오프폴리시 DRL 방법이 Atari에서 잘 작동하는가?
RQ2BCQ와 같은 배치/제약 방법이 이산 행동 배치 RL에서 견고한 성능을 제공하는가?
RQ3이산 배치 RL에서 추정 오차가 어떻게 나타나며, 분포적 또는 제약된 접근 방식이 이를 완화하는가?
RQ4이 설정에서 이산 행동 BCQ의 상대적 성능은 기존의 배치 RL 알고리즘과 어떤 차이가 있는가?

주요 결과

단일 행동 정책 배치 설정에서 표준 오프폴리시 DRL 알고리즘은 온라인 DQN 및 행동 정책보다 성능이 떨어진다.
QR-DQN은 종종 DQN보다 우수하지만 일반적으로 소음이 있는 행동 정책보다 여전히 못하다.
배치 RL 방법인 BCQ가 다른 방법보다 우수하고 종종 노이즈가 없는 행동 정책과 일치하거나 능가한다.
KL-Control은 초기 성과가 강하지만 게임 전반에 걸쳐 강건하지 않으며 가치 발산으로 인해 여러 경우 실패한다.
이산 행동 BCQ 변형은 이 설정에서 테스트된 배치 DRL 방법들 중에서 최첨단 결과를 달성했다.
안정적인 가치 추정치가 더 나은 배치 학습 성능과 상관관계가 있으며, 추정 오차 완화가 중요함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.