QUICK REVIEW

[논문 리뷰] Striving for Simplicity in Off-policy Deep Reinforcement Learning

Rishabh Agarwal, Dale Schuurmans|arXiv (Cornell University)|2019. 07. 10.

Reinforcement Learning in Robotics참고 문헌 8인용 수 48

한 줄 요약

이 논문은 다중 헤드 Q-네트워크의 무작위 볼록 조합에 벨만 일致성을 강제하는 간단한 오프-폴리시 딥 RL 알고리즘인 Random Ensemble Mixture(/rem)을 제안한다. 오프라인 DQN 데이터로만 훈련된 REM은 배치 QR-DQN과 온라인 C51를 모두 능가하며, 오프-폴리시 RL에서 성능 향상의 핵심 요소는 분포학습이나 복잡한 탐색이 아니라 개선된 이용(exploitation)임을 입증한다.

ABSTRACT

Reflecting on the advances of off-policy deep reinforcement learning (RL) algorithms since the development of DQN in 2013, it is important to ask: are the complexities of recent off-policy methods really necessary? In an attempt to isolate the contributions of various factors of variation in off-policy deep RL and to help design simpler algorithms, this paper investigates a set of related questions: First, can effective policies be learned given only access to logged offline experience? Second, how much of the benefits of recent distributional RL algorithms is attributed to improvements in exploration versus exploitation behavior? Third, can simpler off-policy RL algorithms outperform distributional RL without learning explicit distributions over returns? This paper uses a batch RL experimental setup on Atari 2600 games to investigate these questions. Unexpectedly, we find that batch RL algorithms trained solely on logged experiences of a DQN agent are able to significantly outperform online DQN. Our experiments suggest that the benefits of distributional RL mainly stem from better exploitation. We present a simple and novel variant of ensemble Q-learning called Random Ensemble Mixture (REM), which enforces optimal Bellman consistency on random convex combinations of the Q-heads of a multi-head Q-network. The batch REM agent trained offline on DQN data outperforms the batch QR-DQN and online C51 algorithms.

연구 동기 및 목표

순수하게 오프라인으로 기록된 경험, 즉 온라인 상호작용 없이 효과적인 정책을 학습할 수 있는지 조사하기 위해.
최근의 분포학습 RL 알고리즘인 C51 및 QR-DQN에서 탐색과 이용의 기여를 분리하여 분석하기 위해.
명시적인 수익 분포 모델링 없이도 분포학습 RL을 능가하는 더 단순한 오프-폴리시 알고리즘이 존재하는지 확인하기 위해.
오직 오프라인 데이터만을 사용하여 뛰어난 성능을 내는 최소한의 효과적인 오프-폴리시 RL 알고리즘을 설계하기 위해.
현대 오프-폴리시 알고리즘에서 복잡성이 딥 RL의 높은 성능을 내기 위해 필수적이라는 가정을 도전하기 위해.

제안 방법

다중 헤드 Q-네트워크의 무작위 볼록 조합에 최적의 벨만 일치성을 강제하는 새로운 엔semble Q-러닝의 변종인 Random Ensemble Mixture(REM)을 제안한다.
DQN 에이전트가 수집한 오프라인 경험을 사용하는 배치 RL 설정을 통해 온라인 상호작용이 필요 없도록 한다.
다양한 헤드의 Q-값 무작위 조합에 대해 단일 벨만 업데이트를 적용하여 안정적인 가치 추정을 촉진한다.
각 헤드가 별개의 Q-값 추정치를 학습하는 다중 헤드 Q-네트워크 아키텍처를 사용하며, REM은 이를 확률적으로 조합한다.
헤드의 무작위 조합에 대한 벨만 손실을 최소화함으로써 앙상블을 최적화하여, 명시적인 분포학습 없이도 가치 함수 정확도를 향상시킨다.
표준 딥 RL 최적화를 사용해 전체 네트워크를 엔드 투 엔드로 훈련시켜 단순성과 확장성을 유지한다.

실험 결과

연구 질문

RQ1DQN 에이전트로부터 기록된 오직 오프라인 경험만을 사용하여 효과적인 정책을 학습할 수 있는가?
RQ2분포학습 RL의 성능 향상 요인이 개선된 이용인지, 아니면 향상된 탐색인지 어느 정도 기여하는가?
RQ3명시적인 수익 분포 모델링 없이도 C51 및 QR-DQN과 같은 분포학습 방법을 능가하는 더 단순한 오프-폴리시 알고리즘이 존재하는가?
RQ4Q-헤드의 무작위 볼록 조합에 벨만 일치성을 강제하면 표준 분포학습 방법보다 더 뛰어난 성능을 낼 수 있는가?
RQ5현대 오프-폴리시 알고리즘의 복잡성은 배치 RL 환경에서 뛰어난 성능을 내기 위해 진정으로 필수적인가?

주요 결과

오직 오프라인 DQN 경험 데이터로만 훈련된 배치 RL 에이전트가 온라인 DQN보다 뚜렷이 뛰어난 성능을 보이며, 오프라인 데이터가 강력한 정책 학습에 충분한 정보를 포함하고 있음을 시사한다.
분포학습 RL의 성능 향상 요인이 명시적인 분포학습 없이도 성공한 REM의 성공을 통해, 주로 개선된 이용에서 기인함을 입증한다.
Q-헤드의 무작위 볼록 조합에 기반한 단순한 알고리즘인 REM은 동일한 오프라인 데이터로 훈련되었을 때, Atari 2600 게임에서 배치 QR-DQN과 온라인 C51를 모두 능가한다.
REM의 성공은 오프-폴리시 딥 RL에서 수익 분포의 명시적 모델링이 강력한 성능을 내기 위해 필수적인 것은 아님을 시사한다.
Q-헤드의 무작위 조합에 벨만 일치성을 강제하면 표준 분포학습 방법보다 더 정확한 가치 추정과 더 나은 샘플 효율성을 달성한다.
결과는 오프-폴리시 딥 RL에서 높은 성능을 내기 위해 알고리즘의 복잡성이 반드시 필요하다는 일반적인 가정을 도전하며, 단순성이 충분할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.