[논문 리뷰] Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models
PETS는 불확실성 인식 확률 신경망 다이나믹스와 궤적 샘플링을 사용하여 표준 벤치마크에서 샘플 수를 현저히 줄이면서도 모델-기반 강화학습이 모델-프리의 비대략적 성능에 맞먹도록 한다.
Model-based reinforcement learning (RL) algorithms can attain excellent sample efficiency, but often lag behind the best model-free algorithms in terms of asymptotic performance. This is especially true with high-capacity parametric function approximators, such as deep networks. In this paper, we study how to bridge this gap, by employing uncertainty-aware dynamics models. We propose a new algorithm called probabilistic ensembles with trajectory sampling (PETS) that combines uncertainty-aware deep network dynamics models with sampling-based uncertainty propagation. Our comparison to state-of-the-art model-based and model-free deep RL algorithms shows that our approach matches the asymptotic performance of model-free algorithms on several challenging benchmark tasks, while requiring significantly fewer samples (e.g., 8 and 125 times fewer samples than Soft Actor Critic and Proximal Policy Optimization respectively on the half-cheetah task).
연구 동기 및 목표
- 샘플 효율적인 강화 학습을 깊은 모형 기반 다이나믹스에 불확실성을 통합하여 모티브화한다.
- 확실성과 불확실성을 포착하기 위해 신경망과 앙상블을 결합한 불확실성 인식 다이나믹스 모델을 개발한다.
- 계획 과정에서 불확실성을 전파하기 위해 모델 예측 제어 프레임워크 내에서 궤적 샘플링을 제안한다.
- 더 적은 샘플로도 모델-프리 방법에 비견되는 수렴적 성능을 달성함을 실증한다.
제안 방법
- PETS(궤적 샘플링이 있는 확률적 앙상블)를 제안하여 부트스트랩된 확률 신경망의 앙상블을 사용해 다이나믹스를 모델링한다.
- 확률적 네트워크를 통한 차원 불확실성(=aleatoric)과 앙상블을 통한 인식 가능한 불확실성(=epistemic)을 분리하고 포착한다.
- 다중 입자와 부트스트랩 지수를 활용한 궤적 샘플링으로 시간에 걸친 불확실성을 전파한다.
- 예상되는 보상에 기초하여 예측 궤적을 통해 행동 시퀀스를 최적화하기 위해 교차 엔트로피 방법(CEM)을 사용하는 모델 예측 제어를 각 단계에 적용한다.
- 데이터에 대해 모델을 학습하고 trial 기반 데이터 수집으로 업데이트하며 모델-프리 및 GP 기반 기준선과 비교 평가한다.
실험 결과
연구 질문
- RQ1불확실성 인식 딥 뉴럴 네트워크 다이나믹스 모델이 샘플 복잡성을 줄이면서 모델 기반과 모델 프리 RL 간의 성능 차이를 좁힐 수 있는가?
- RQ2계획 및 학습 효율성에 대해 차이불확실성(aleatoric)과 인식가능 불확실성(epistemic) 모델링의 영향은 무엇인가?
- RQ3다른 불확실성 전파 방법이 계획 품질과 데이터 효율성에 어떤 영향을 미치는가?
- RQ4확률 네트워크의 앙상블이 고차원 제어 과제에 실용적이고 확장 가능한가?
- RQ5PETS식 방법이 표준 벤치마크에서 상당히 적은 샘플로도 최첨단 모델-프리 방법과 수렴적 성능을 달성하는가?
주요 결과
- PETS는 벤치마크 과제에서 최첨단 모델-프리 방법의 수렴적 성능을 훨씬 적은 샘플로 달성한다.
- 실험에서 half-cheetah에 대해 Soft Actor Critic 대비 샘플이 8배 더 적게 필요했다.
- PETS는 여러 과제에서 기존의 모델 기반 방법 및 일부 모델-프리 기준선보다 우수한 성능을 보이며 모델링 및 계획에 불확실성을 통합하는 가치가 입증되었다.
- 확률적 앙상블과 궤적 샘플링의 결합은 차원 불확실성과 인식가능 불확실성을 견고하게 처리해 데이터 효율성을 향상시킨다.
- 모멘트 매칭은 저차원 과제에서 경쟁력 있을 수 있지만 half-cheetah와 같은 고차원 과제에서 신뢰성이 낮다.
- 모델 선택(PE 앙상블)이 성능에 미치는 영향은 특정 불확실성 전파 기법보다 큰 편이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.