QUICK REVIEW

[논문 리뷰] Model-Based Reinforcement Learning via Meta-Policy Optimization

Ignasi Clavera, Jonas Rothfuss|arXiv (Cornell University)|2018. 09. 14.

Machine Learning and Data Classification인용 수 117

한 줄 요약

MB-MPO는 동역학 모델의 앙상블을 학습하고 한 단계의 그래디언트 업데이트로 어떠한 모델에도 빠르게 적응할 수 있는 정책을 학습하며, 더 적은 데이터로도 모델-프리 수준의 점근적 성능을 달성한다.

ABSTRACT

Model-based reinforcement learning approaches carry the promise of being data efficient. However, due to challenges in learning dynamics models that sufficiently match the real-world dynamics, they struggle to achieve the same asymptotic performance as model-free methods. We propose Model-Based Meta-Policy-Optimization (MB-MPO), an approach that foregoes the strong reliance on accurate learned dynamics models. Using an ensemble of learned dynamic models, MB-MPO meta-learns a policy that can quickly adapt to any model in the ensemble with one policy gradient step. This steers the meta-policy towards internalizing consistent dynamics predictions among the ensemble while shifting the burden of behaving optimally w.r.t. the model discrepancies towards the adaptation step. Our experiments show that MB-MPO is more robust to model imperfections than previous model-based approaches. Finally, we demonstrate that our approach is able to match the asymptotic performance of model-free methods while requiring significantly less experience.

연구 동기 및 목표

복합 제어 과제를 위한 데이터 효율적 강화 학습의 필요성을 제시한다.
다양한 동역학 모델 분포에 적응하는 정책을 메타학습하여 모델 바이어스를 다룬다.
학습된 동역학의 앙상블을 사용하여 견고한 성능과 빠른 적응을 가능하게 한다.
메타 최적화가 훨씬 적은 경험으로도 모델-프리의 점근적 성능에 맞출 수 있음을 입증한다.

제안 방법

상태 변화 Δs를 예측하는 신경망 동역학 모델의 앙상블을 학습한다.
앙상블을 사용하여 MDP 분포를 형성하고, 이러한 모델들에 걸쳐 정책을 최적화하기 위해 기울기 기반 메타학습을 적용한다.
사전 업데이트 정책 θ를 학습하기 위해 MAML 목적을 사용하고, 각 모델 k에 한 번의 그래디언트 스텝으로 빠르게 적응할 수 있도록: θ′k = θ + α ∇θ Jk(θ).
사전 업데이트 정책으로 k번째 모델에서 상상된 궤적을 시뮬레이션하여 Jk(θ)를 추정한다.
모든 모델에 걸친 메타 목적 toward θ를 향상시키기 위해 정책 그래디언트 방법(TRPO)으로 바깥쪽 정책 최적화를 수행한다.
앙상블 학습을 위해 실제 환경 데이터를 수집하고 주기적으로 집계 데이터로 모델을 업데이트한다.

실험 결과

연구 질문

RQ1MB-MPO가 모델-프리 방법과 비슷한 점근적 성능을 달성하면서도 실제 데이터가 현저히 적게 필요할 수 있는가?
RQ2학습된 동역학 모델의 앙상블에 대한 메타학습이 전통적인 모델 기반 접근법에 비해 모델 바이어스에 대한 견고성을 개선하는가?
RQ3각 모델 내에서의 정책 적응은 데이터 수집 효율성과 학습 속도에 어떤 영향을 미치는가?
RQ4MB-MPO는 편향되거나 불완전한 동역학 모델 및 장기 예측에 대해 견고한가?

주요 결과

MB-MPO는 여섯 개의 Mujoco 과제에서 10~100배 적은 데이터로 최첨단 모델-프리 방법의 점근적 성능에 도달한다.
MB-MPO는 수렴 속도와 최종 성능 면에서 최근의 모델 기반 기준치(ME-TRPO, MB-MPC)를 능가하며, 특히 장기 계획이 필요한 과제에서 강점을 보인다.
모델 앙상블 불확실성과 정책 가소성(KL 발산: 업데이트 전후 정책 간) 사이에 강한 양의 상관관계가 있다.
MB-MPO는 바이어스된/노이즈가 있는 동역학 모델에서도 견고하며 ME-TRPO가 실패하는 강한 모델 결함에서도 학습할 수 있다.
각 앙상블 모델에 정책을 적응시키고 나서 메타 정책을 업데이트하는 것이 처음부터 학습하거나 적응 없이 학습하는 것보다 수렴이 빠르고 샘플 효율이 더 좋다.
실제 데이터는 쉬운 도메인에서 약 30분 이내에 높은 성능에 도달하고, 어려운 도메인에서는 약 90분까지 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.