QUICK REVIEW

[논문 리뷰] An Optimistic Perspective on Offline Reinforcement Learning

Rishabh Agarwal, Dale Schuurmans|arXiv (Cornell University)|2019. 07. 10.

Reinforcement Learning in Robotics참고 문헌 46인용 수 95

한 줄 요약

본 논문은 크고 다양한 DQN 재생 데이터셋에서의 오프라인 학습이 최근의 오프폴리시 RL 알고리즘이 최고의 온라인 DQN을 능가하게 하며, 오프라인 성능을 더욱 향상시키기 위해 Random Ensemble Mixture(REM)을 도입한다.

ABSTRACT

Off-policy reinforcement learning (RL) using a fixed offline dataset of logged interactions is an important consideration in real world applications. This paper studies offline RL using the DQN replay dataset comprising the entire replay experience of a DQN agent on 60 Atari 2600 games. We demonstrate that recent off-policy deep RL algorithms, even when trained solely on this fixed dataset, outperform the fully trained DQN agent. To enhance generalization in the offline setting, we present Random Ensemble Mixture (REM), a robust Q-learning algorithm that enforces optimal Bellman consistency on random convex combinations of multiple Q-value estimates. Offline REM trained on the DQN replay dataset surpasses strong RL baselines. Ablation studies highlight the role of offline dataset size and diversity as well as the algorithm choice in our positive results. Overall, the results here present an optimistic view that robust RL algorithms trained on sufficiently large and diverse offline datasets can lead to high quality policies. The DQN replay dataset can serve as an offline RL benchmark and is open-sourced.

연구 동기 및 목표

실세계 문제에서 온라인 데이터 수집의 실용적 대안으로서 오프라인 RL의 동기를 부여한다.
배포-불일치 보정 없이 고정된 크고 큰 오프라인 데이터셋에서 현대의 오프폴리시 RL 방법들이 효과적으로 학습할 수 있는지 평가한다.
일반화 강화를 위해 특히 REM을 활용한 앙상블 방법을 통한 강건한 오프라인 학습을 제안한다.
DQN Replay Dataset을 사용해 Atari 2600에서 오프라인 RL 벤치마크를 구축하여 재현 가능한 기준선을 확립한다.

제안 방법

60개 Atari 게임에 걸쳐 DQN Replay Dataset을 사용한 오프라인 RL을 분석한다.
무작위 볼록 결합으로 구성된 여러 Q-값 헤드의 최적 벨만 일관성을 강제하는 Q-러닝 변형인 Random Ensemble Mixture(REM)을 도입한다.
REM이 헤드 추정치의 볼록 결합을 형성하도록 다중 헤드 Q-네트워크를 사용하여 학습을 이끈다.
오프라인 QR-DQN, C51 및 온라인 기반선과 대조하여 REM과 Ensemble-DQN의 오프라인 성능을 평가한다.
앙상블 헤드가 최적 Q-함수로 수렴하는 시점을 다루는 이론적 통찰(명제 1)을 제공한다.

실험 결과

연구 질문

RQ1오프라인 데이터만으로 학습된 표준 오프폴리시 심층 RL 알고리즘이 오프라인 데이터셋에서 가장 좋은 정책을 능가할 수 있는가?
RQ2REM과 같은 강건한 앙상블 기반 접근법이 오프라인 일반화 및 Atari 2600 게임에서의 성능을 향상시키는가?
RQ3오프라인 데이터셋의 크기와 다양성이 오프라인 RL 방법의 성공에 어떤 영향을 미치는가?
RQ4REM이 온라인 학습 환경에서도 효과적인가?
RQ5오프라인 대규모 Atari 벤치마크에서 서로 다른 RL 알고리즘 선택이 어떻게 비교되는가?

주요 결과

오프라인 QR-DQN과 C51은 오프라인 DQN보다 개선되지만, 오프라인 설정에서 REM이 가장 큰 이득을 낸다.
충분한 그래디언트 업데이트와 다양한 데이터가 있으면 오프라인 REM이 온라인에서 충분히 학습된 C51의 이득을 능가한다.
DQN with Adam은 오프라인 상황에서 QR-DQN과 온라인 DQN의 성능 차이를 줄이고, REM은 점근적 성능에서 일관되게 앞서 있다.
오프라인 데이터셋의 크기와 다양성은 오프라인 RL의 성공에 크게 영향을 미치며, 더 크고 더 다양한 데이터가 더 나은 일반화를 가능하게 한다.
REM의 무작위 앙상블 학습은 강건한 규제자 역할을 하여 오프라인 실험 전반에서 단순 앙상블 방법보다 더 나은 성능을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.