QUICK REVIEW

[논문 리뷰] MOReL : Model-Based Offline Reinforcement Learning

Rahul Kidambi, Aravind Rajeswaran|arXiv (Cornell University)|2020. 05. 12.

Reinforcement Learning in Robotics참고 문헌 86인용 수 158

한 줄 요약

MOReL은 오프라인 데이터를 바탕으로 비관적 MDP를 구축하고 근사 최적 정책을 학습하는 모델 기반 오프라인 강화학습 프레임워크를 제시하며, 이론적 미니맥스 최적 보장과 오프라인 RL 벤치마크에서의 최첨단 결과를 보여줍니다.

ABSTRACT

In offline reinforcement learning (RL), the goal is to learn a highly rewarding policy based solely on a dataset of historical interactions with the environment. The ability to train RL policies offline can greatly expand the applicability of RL, its data efficiency, and its experimental velocity. Prior work in offline RL has been confined almost exclusively to model-free RL approaches. In this work, we present MOReL, an algorithmic framework for model-based offline RL. This framework consists of two steps: (a) learning a pessimistic MDP (P-MDP) using the offline dataset; and (b) learning a near-optimal policy in this P-MDP. The learned P-MDP has the property that for any policy, the performance in the real environment is approximately lower-bounded by the performance in the P-MDP. This enables it to serve as a good surrogate for purposes of policy evaluation and learning, and overcome common pitfalls of model-based RL like model exploitation. Theoretically, we show that MOReL is minimax optimal (up to log factors) for offline RL. Through experiments, we show that MOReL matches or exceeds state-of-the-art results in widely studied offline RL benchmarks. Moreover, the modular design of MOReL enables future advances in its components (e.g. generative modeling, uncertainty estimation, planning etc.) to directly translate into advances for offline RL.

연구 동기 및 목표

오프라인 RL의 필요성을 제시하고 정적 데이터셋으로 학습할 때 데이터 효율성과 안전성을 다룬다.
모델 착취를 완화하기 위해 비관주의를 이용한 모델 기반 오프라인 RL 프레임워크를 제안한다.
MOReL이 오프라인 RL에서 근접한 미니맥스 최적성을 보장하는 이론적 보장을 제공한다.
확립된 오프라인 RL 벤치마크 및 D4RL에서 경험적 SOTA 성능을 보여준다.

제안 방법

오프라인 데이터셋으로 근사 동역학 모델 ˆP를 학습한다.
모델 정확도에 따른 변이의 총합 거리(total variation distance)에 기반해 알려진 영역과 미지의 영역을 구분하는 미지의 상태-행동 탐지기(USAD)를 도입한다.
미지 영역에 무겁게 패널티를 주고(HALT 상태로의 흡수) 미지 영역을 HALT로 유도하는 비관적 MDP를 구성한다(−κ).
비관적 MDP에서 P-MDP에서 근사적으로 επ-하위 최적의 정책을 얻기 위해 PLANNER를 계획한다.
선택적으로 데이터에서 행동 정책을 추정하고 USAD의 불확실성을 정량화하기 위해 모델 앙상블을 통합한다.
오프라인 MDP와 P-MDP 사이의 정책 가치 차를 한정하는 이론적 보장을 제공하고 근접한 미니맥스 최적성을 입증한다.

실험 결과

연구 질문

RQ1표준 벤치마크에서 MOReL의 성능은 기존의 오프라인 RL 방법들과 비교하여 어떤가?
RQ2비관주의를 가진 모델 기반 오프라인 RL 프레임워크가 강력한 이론적 보장과 모델 착취에 대한 실용적 안정성을 제공할 수 있는가?
RQ3오프라인 데이터의 질과 범위가 MOReL에서 학습된 정책에 어떤 영향을 미치는가?
RQ4P-MDP에서의 학습 진행이 실제 환경에서의 진행으로 효과적으로 확장되는가?

주요 결과

MOReL은 20개 환경-데이터 구성 중 12개에서 최첨단 결과를 달성하고 남은 구성에서도 경쟁력을 보인다.
MOReL은 D4RL 벤치마크에서 강력한 성과를 거두며 도메인 전역에서 종종 최상위 방법들을 능가하거나 근소하게 맞먹는다.
알려지지 않은 영역 페널티를 통한 P-MDP 정규화는 순진한 모델 기반 RL보다 더 안정적이고 단조로운 학습 곡선을 낳는다.
이론적 경계는 P-MDP의 정책 가치가 시작 상태 분포 불일치, 모델 오차 α, 미지 상태 도달 시간에 따라 달라지는 항들까지 실제 MDP를 밀접하게 추적함을 보여준다.
실험 결과 데이터 로깅 정책의 품질이 MOReL의 성능에 크게 영향을 미치며, 더 나은 로깅 정책이 더 높은 달성 가능한 정책 값을 이끈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.