QUICK REVIEW

[논문 리뷰] Do recent advancements in model-based deep reinforcement learning really improve data efficiency?

Kacper Kielak|arXiv (Cornell University)|2019. 09. 25.

Reinforcement Learning in Robotics참고 문헌 19인용 수 30

한 줄 요약

이 논문은 더 자주 네트워크 업데이트를 수행하는 수정된 Rainbow DQN 에이전트가 환경 모델 학습이 필요 없이도 최신의 모델기반 강화학습 방법과 비교해도 우수하거나 유사한 샘플 효율성을 달성함을 보여준다. 주요 기여는 향후 샘플 효율성 연구를 위한 새로운 기준으로 단순하고 복잡도가 낮은 Rainbow DQN의 이 Modiﬁed 버전을 제안하는 데 있다.

ABSTRACT

Reinforcement learning (RL) has seen great advancements in the past few years. Nevertheless, the consensus among the RL community is that currently used model-free methods, despite all their benefits, suffer from extreme data inefficiency. To circumvent this problem, novel model-based approaches were introduced that often claim to be much more efficient than their model-free counterparts. In this paper, however, we demonstrate that the state-of-the-art model-free Rainbow DQN algorithm can be trained using a much smaller number of samples than it is commonly reported. By simply allowing the algorithm to execute network updates more frequently we manage to reach similar or better results than existing model-based techniques, at a fraction of complexity and computational costs. Furthermore, based on the outcomes of the study, we argue that the agent similar to the modified Rainbow DQN that is presented in this paper should be used as a baseline for any future work aimed at improving sample efficiency of deep reinforcement learning.

연구 동기 및 목표

모델기반 강화학습이 모델자유 방법보다 본질적으로 더 높은 데이터 효율성을 가진다는 일반적인 가정을 도전하기 위해.
기존의 모델자유 알고리즘인 Rainbow DQN가 최소한의 수정만으로도 뛰어난 또는 유사한 샘플 효율성을 달성할 수 있는지 조사하기 위해.
복잡한 모델기반 접근 방식보다 샘플 효율성에서 뛰어난 성능을 보이는 더 단순하고 복잡도가 낮은 기준을 식별하기 위해.
학습 빈도가 샘플 효율성에 미치는 영향을 보여줌으로써 딥 강화학습의 현재 벤치마킹 기준을 재평가하기 위해.

제안 방법

연구는 학습 중 신경망 파라미터 업데이트 빈도를 높임으로써 Rainbow DQN 알고리즘을 수정한다.
각 에피소드나 트레이ector리 이후에만 네트워크를 업데이트하는 대신, 환경 단계 수준에서 몇 번의 스텝마다 업데이트를 수행한다.
수정된 에이전트는 우선순위 경험 리play와 듀얼 네트워크를 사용하는 표준 Rainbow DQN 아키텍처를 유지하지만, 업데이트 스케줄링을 향상시켰다.
수정된 Rainbow DQN의 성능은 표준 MuJoCo 제어 벤치마크에서 최신의 모델기반 강화학습 방법과 직접 비교하여 평가된다.
공정한 비교를 위해 동일한 초모수 및 계산 자원 제약 조건 하에서 학습이 수행된다.
목표 성능 기준에 도달하기 위해 필요한 환경 상호작용 수를 측정하여 샘플 효율성을 분석한다.

실험 결과

연구 질문

RQ1Rainbow DQN와 같은 수정된 모델자유 에이전트가 최신의 모델기반 강화학습 방법과 유사한 샘플 효율성을 달성할 수 있는가?
RQ2Rainbow DQN에서 네트워크 업데이트 빈도를 높이면 모델 복잡도를 증가시키지 않으면서도 데이터 효율성이 크게 향상되는가?
RQ3모델자유 에이전트가 최적의 업데이트 빈도로 학습될 경우, 모델기반 RL이 더 높은 데이터 효율성을 가진다는 현재의 공감대가 여전히 유효한가?
RQ4더 단순하고 모델자유 기반의 기준이 복잡한 모델기반 방법보다 샘플 효율성과 계산 비용 측면에서 뛰어나게 성능을 낼 수 있는가?

주요 결과

빈번한 네트워크 업데이트를 적용한 수정된 Rainbow DQN는 MuJoCo 벤치마크에서 최신의 모델기반 강화학습 방법과 동등하거나 더 뛰어난 성능을 달성한다.
환경 모델 학습 없이도 향상된 샘플 효율성이 달성되어 계산 및 구현 복잡도가 크게 감소한다.
기존의 일반적인 모델자유 기준보다 훨씬 적은 환경 상호작용 수로 목표 성능 수준에 도달한다.
결과는 현재의 모델기반 방법이 주장하는 것만큼 데이터 효율성이 뛰어나지 않을 수 있음을 시사하며, 특히 모델자유 에이전트가 최적의 업데이트 빈도로 학습될 경우 더욱 그렇다.
이 연구는 학습 스케줄 초모수, 예를 들어 업데이트 빈도가 모델자유 강화학습에서 샘플 효율성에 상당한 영향을 미친다는 것을 입증한다.
저자들은 수정된 Rainbow DQN가 향후 딥 강화학습의 샘플 효율성 연구를 위한 새로운 표준 기준으로 채택되어야 한다고 결론 내린다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.