QUICK REVIEW

[논문 리뷰] When to Trust Your Model: Model-Based Policy Optimization

Michael Jänner, Justin Fu|arXiv (Cornell University)|2019. 06. 19.

Reinforcement Learning in Robotics참고 문헌 44인용 수 119

한 줄 요약

MBPO는 실제 데이터에서 분기된 짧은 모델 롤아웃을 사용하여 빠른 학습을 달성합니다: 모델-프리의 점근적 성능과 일치하면서 데이터 효율성을 개선하고 긴 시계열 모델의 함정을 피합니다.

ABSTRACT

Designing effective model-based reinforcement learning algorithms is difficult because the ease of data generation must be weighed against the bias of model-generated data. In this paper, we study the role of model usage in policy optimization both theoretically and empirically. We first formulate and analyze a model-based reinforcement learning algorithm with a guarantee of monotonic improvement at each step. In practice, this analysis is overly pessimistic and suggests that real off-policy data is always preferable to model-generated on-policy data, but we show that an empirical estimate of model generalization can be incorporated into such analysis to justify model usage. Motivated by this analysis, we then demonstrate that a simple procedure of using short model-generated rollouts branched from real data has the benefits of more complicated model-based algorithms without the usual pitfalls. In particular, this approach surpasses the sample efficiency of prior model-based methods, matches the asymptotic performance of the best model-free algorithms, and scales to horizons that cause other model-based methods to fail entirely.

연구 동기 및 목표

강화학습에서 정책 최적화를 위한 예측 모델의 활용을 어떻게 최적화할지 동기를 부여하고 분석합니다.
모델 기반 업데이트 하에서 단조로운 개선을 보장하고, 모델 오류와 분포 이동을 고려합니다.
실용적이고 경험적으로 이끄는 접근법(MBPO)을 소개합니다. 이는 짧고 분기된 모델 롤아웃을 사용하여 데이터 효율성을 향상시킵니다.
신중하게 제어된 모델 사용이 이전의 모델 기반 방법들을 능가하면서도 강한 점근적 성능을 유지할 수 있음을 보여줍니다.

제안 방법

일반화 및 분포-이동 오차 ε_m 및 ε_pi를 포함하는 단조로운 모델 기반 정책 개선 프레임워크를 정식화하고, 모델 수익(반환)을 기준으로 true 반환에 대한 상한을 도출합니다.
데이터를 수집하는 정책 분포에서 시작하여 학습된 모델 하에서 k-step 동안 실행되는 분기된 롤아웃을 도입하여 오차 누적을 제한합니다.
MBPO를 제안합니다: 확률적 동역학 모델의 앙상블을 학습하고, 정책 최적화를 위해 SAC를 사용하며, 재생 버퍼 상태에서 짧은 모델 롤아웃을 생성합니다.
짧고 반복적인 모델 롤아웃을 사용하여 모델 생성 데이터의 대량을 만들면서 모델 남용과 긴 시계 구간의 결합 문제를 완화합니다.
실제로는 모델 일반화의 경험적 측정을 하고, 모델 기반 업데이트와 모델-프리 업데이트의 균형을 맞추기 위해 롤아웃 사용을 조정합니다.

실험 결과

연구 질문

RQ1모델 기반 업데이트가 모델 오류와 분포 이동을 고려할 때 정책 성능의 단조로운 개선을 어떻게 보장할 수 있는가?
RQ2짧은 모델 롤아웃이 모델 남용을 악화시키거나 오차를 누적시키지 않으면서 실제적인 이점을 제공하는 조건은 무엇인가?
RQ3분기된 짧은 시한의 모델 롤아웃이 더 빠른 학습을 가져오면서도 최적의 모델 프리 점근적 성능을 유지할 수 있는가?
RQ4보지 않은 정책 분포에 대한 모델 일반화가 모델 기반 데이터의 유용성에 어떤 영향을 미치는가?
RQ5샘플 효율성을 최적화하기 위한 설계 선택(모델 앙상블, 롤아웃 길이, 최적화 알고리즘)은 무엇인가?

주요 결과

MBPO는 이전의 모델 기반 방법들보다 훨씬 빠른 학습 속도를 달성하면서 최종 성능을 선도하는 모델-프리 알고리즘의 성능과 일치합니다.
연속 제어 벤치마크에서 MBPO는 데이터와 단계 수가 한 차례에 비해 크게 적은 규모로 모델-프리 성능에 도달할 수 있습니다(예: Ant 작업: 300k 단계 vs SAC의 3M 단계).
짧은(심지어 단일 스텝) 모델 롤아웃은 상당한 이점을 제공하고 더 긴 롤아웃은 오차 누적로 인해 해로울 수 있습니다.
분기된 롤아웃 전략(실제 데이터 분포에서 시작해 k단계를 시뮬레이션)은 누적 오차를 완화하고 더 긴 시야로 확장할 수 있습니다.
확률적 동역학 모델의 앙상블은 불확실성을 포착하고 모델 남용을 줄이는 데 도움을 줍니다.
경험적 측정은 더 많은 데이터로 모델 일반화가 향상됨을 보여주며, 실제 사용을 정당화하는 보다 현실적인 상한을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.