Skip to main content
QUICK REVIEW

[논문 리뷰] When to Trust Your Model: Model-Based Policy Optimization

Michael Jänner, Justin Fu|arXiv (Cornell University)|2019. 06. 19.
Reinforcement Learning in Robotics참고 문헌 44인용 수 119
한 줄 요약

MBPO는 실제 데이터에서 분기된 짧은 모델 롤아웃을 사용하여 빠른 학습을 달성합니다: 모델-프리의 점근적 성능과 일치하면서 데이터 효율성을 개선하고 긴 시계열 모델의 함정을 피합니다.

ABSTRACT

Designing effective model-based reinforcement learning algorithms is difficult because the ease of data generation must be weighed against the bias of model-generated data. In this paper, we study the role of model usage in policy optimization both theoretically and empirically. We first formulate and analyze a model-based reinforcement learning algorithm with a guarantee of monotonic improvement at each step. In practice, this analysis is overly pessimistic and suggests that real off-policy data is always preferable to model-generated on-policy data, but we show that an empirical estimate of model generalization can be incorporated into such analysis to justify model usage. Motivated by this analysis, we then demonstrate that a simple procedure of using short model-generated rollouts branched from real data has the benefits of more complicated model-based algorithms without the usual pitfalls. In particular, this approach surpasses the sample efficiency of prior model-based methods, matches the asymptotic performance of the best model-free algorithms, and scales to horizons that cause other model-based methods to fail entirely.

연구 동기 및 목표

  • 강화학습에서 정책 최적화를 위한 예측 모델의 활용을 어떻게 최적화할지 동기를 부여하고 분석합니다.
  • 모델 기반 업데이트 하에서 단조로운 개선을 보장하고, 모델 오류와 분포 이동을 고려합니다.
  • 실용적이고 경험적으로 이끄는 접근법(MBPO)을 소개합니다. 이는 짧고 분기된 모델 롤아웃을 사용하여 데이터 효율성을 향상시킵니다.
  • 신중하게 제어된 모델 사용이 이전의 모델 기반 방법들을 능가하면서도 강한 점근적 성능을 유지할 수 있음을 보여줍니다.

제안 방법

  • 일반화 및 분포-이동 오차 ε_m 및 ε_pi를 포함하는 단조로운 모델 기반 정책 개선 프레임워크를 정식화하고, 모델 수익(반환)을 기준으로 true 반환에 대한 상한을 도출합니다.
  • 데이터를 수집하는 정책 분포에서 시작하여 학습된 모델 하에서 k-step 동안 실행되는 분기된 롤아웃을 도입하여 오차 누적을 제한합니다.
  • MBPO를 제안합니다: 확률적 동역학 모델의 앙상블을 학습하고, 정책 최적화를 위해 SAC를 사용하며, 재생 버퍼 상태에서 짧은 모델 롤아웃을 생성합니다.
  • 짧고 반복적인 모델 롤아웃을 사용하여 모델 생성 데이터의 대량을 만들면서 모델 남용과 긴 시계 구간의 결합 문제를 완화합니다.
  • 실제로는 모델 일반화의 경험적 측정을 하고, 모델 기반 업데이트와 모델-프리 업데이트의 균형을 맞추기 위해 롤아웃 사용을 조정합니다.

실험 결과

연구 질문

  • RQ1모델 기반 업데이트가 모델 오류와 분포 이동을 고려할 때 정책 성능의 단조로운 개선을 어떻게 보장할 수 있는가?
  • RQ2짧은 모델 롤아웃이 모델 남용을 악화시키거나 오차를 누적시키지 않으면서 실제적인 이점을 제공하는 조건은 무엇인가?
  • RQ3분기된 짧은 시한의 모델 롤아웃이 더 빠른 학습을 가져오면서도 최적의 모델 프리 점근적 성능을 유지할 수 있는가?
  • RQ4보지 않은 정책 분포에 대한 모델 일반화가 모델 기반 데이터의 유용성에 어떤 영향을 미치는가?
  • RQ5샘플 효율성을 최적화하기 위한 설계 선택(모델 앙상블, 롤아웃 길이, 최적화 알고리즘)은 무엇인가?

주요 결과

  • MBPO는 이전의 모델 기반 방법들보다 훨씬 빠른 학습 속도를 달성하면서 최종 성능을 선도하는 모델-프리 알고리즘의 성능과 일치합니다.
  • 연속 제어 벤치마크에서 MBPO는 데이터와 단계 수가 한 차례에 비해 크게 적은 규모로 모델-프리 성능에 도달할 수 있습니다(예: Ant 작업: 300k 단계 vs SAC의 3M 단계).
  • 짧은(심지어 단일 스텝) 모델 롤아웃은 상당한 이점을 제공하고 더 긴 롤아웃은 오차 누적로 인해 해로울 수 있습니다.
  • 분기된 롤아웃 전략(실제 데이터 분포에서 시작해 k단계를 시뮬레이션)은 누적 오차를 완화하고 더 긴 시야로 확장할 수 있습니다.
  • 확률적 동역학 모델의 앙상블은 불확실성을 포착하고 모델 남용을 줄이는 데 도움을 줍니다.
  • 경험적 측정은 더 많은 데이터로 모델 일반화가 향상됨을 보여주며, 실제 사용을 정당화하는 보다 현실적인 상한을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.