QUICK REVIEW

[논문 리뷰] Benchmarking Model-Based Reinforcement Learning

Tingwu Wang, Xuchan Bao|arXiv (Cornell University)|2019. 07. 03.

Reinforcement Learning in Robotics참고 문헌 43인용 수 242

한 줄 요약

11개의 MBRL 알고리즘과 4개의 MFRL 베이스라인을 OpenAI Gym 유사 환경 18개에 대해 종합 벤치마크를 수행하고, 성능, 노이즈에 대한 강건성, 모델 기반 RL의 세 가지 병목현상을 분석한다.

ABSTRACT

Model-based reinforcement learning (MBRL) is widely seen as having the potential to be significantly more sample efficient than model-free RL. However, research in model-based RL has not been very standardized. It is fairly common for authors to experiment with self-designed environments, and there are several separate lines of research, which are sometimes closed-sourced or not reproducible. Accordingly, it is an open question how these various existing MBRL algorithms perform relative to each other. To facilitate research in MBRL, in this paper we gather a wide collection of MBRL algorithms and propose over 18 benchmarking environments specially designed for MBRL. We benchmark these algorithms with unified problem settings, including noisy environments. Beyond cataloguing performance, we explore and unify the underlying algorithmic differences across MBRL algorithms. We characterize three key research challenges for future MBRL research: the dynamics bottleneck, the planning horizon dilemma, and the early-termination dilemma. Finally, to maximally facilitate future research on MBRL, we open-source our benchmark in http://www.cs.toronto.edu/~tingwuwang/mbrl.html.

연구 동기 및 목표

표준화된 공유 벤치마크 하에서 현행 MBRL 알고리즘의 상대적 성능을 모델-프리 베이스라인과 비교 평가한다.
관측 및 행동 노이즈에 대한 MBRL 방법의 강건성을 평가한다.
MBRL 진행을 제한하는 핵심 과제를 식별하고 특징화한다(다이나믹스 병목, 계획 horizon, 조기 종료).
재현성과 공정한 비교를 가능하게 하는 오픈 소스 벤치마킹 자원을 제공한다.

제안 방법

다양한 11개 MBRL 알고리즘과 4개 MFRL 베이스라인을 수집한다.
환경(18개 태스크) 및 문제 설정(노이즈 포함)을 OpenAI Gym 기준으로 표준화하고, 특정 방법의 미분가능성을 보장하기 위해 보상을 수정한다.
그리드 검색된 하이퍼파라미터를 알고리즘당 사용하고, 네 가지 무작위 시드로 200k 타임스텝(일부 방법은 1M 타임스텝)에서 성능을 평가한다.
가우시안 교란을 통해 관측 및 행동 노이즈에 대한 강건성을 분석한다.
경험적 측정을 통해 세 가지 가설 주도 병목현상(다이나믹스 병목, 계획 horizon, 조기 종료)을 조사한다.
재현성을 위한 오픈소스 벤치마크 플랫폼 및 문서를 제공한다.

실험 결과

연구 질문

RQ1현존하는 MBRL 접근 방식이 서로 및 표준 MFRL 베이스라인과 비교하여 다양한 환경 난이도에서 어떤 차이를 보이는가?
RQ2MBRL 방법은 관측 및 행동 노이즈에 강건한가, 그리고 이 강건성은 모델-프리 베이스라인과 어떻게 비교되는가?
RQ3MBRL 성능을 제한하는 주요 요인은 무엇이며, 이는 다이나믹스 병목, 계획 horizon 문제, 또는 조기 종료 딜레마로 나타나는가?
RQ4표준화된 벤치마크와 오픈소스 코드는 MBRL의 진전과 재현성을 촉진할 수 있는가?

주요 결과

단 하나의 MBRL 방법이 모든 환경에서 지배적이지 않다; 성능은 작업 난이도 및 환경 특성에 따라 달라진다.
촬영(Shooting) 및 다이나 스타일 Dyna 방식의 MBRL은 단순한 과제에서 자주 우수하나, 고차원이고 복잡한 과제는 모델-프리 방법 및 실제 다이나믹스에 비해 여전히 차이가 드러난다.
관측 및 행동 노이즈에 대한 강건성은 이질적이다; 일부 Dyna 방식은 회복력이 보이나, 다른 것들은 노이즈로 더 크게 감소한다.
세 가지 지속적인 병목현상이 확인된다: 다이나믹스 병목(더 많은 데이터로 학습된 다이나믹스가 정체), 계획 horizon 딜레마(긴 호라이즌이 차원의 저주와 모델 오차로 성능에 해를 끼침), 조기 종료 딜레마(조기 종료가 종종 MBRL 성능에 해를 끼침).
실제 다이나믹스는 일반적으로 더 높은 성능을 가능하게 하지만 항상 확장될 수는 없다; 다이나믹스를 학습하는 경우 성능은 모델-프리 베이스라인 및 전체-실제 베이스라인보다 낮은 수준에서 포화된다.
불확실성 모델링, 앙상블, 강건한 플래닝 모듈의 중요성을 강조한다. 모델 바이어스 및 외삽 오류를 완화하기 위함이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.