QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Kurtland Chua, Roberto Calandra|arXiv (Cornell University)|2018. 05. 30.

Reinforcement Learning in Robotics참고 문헌 49인용 수 185

한 줄 요약

PETS는 불확실성 인식 확률 신경망 다이나믹스와 궤적 샘플링을 사용하여 표준 벤치마크에서 샘플 수를 현저히 줄이면서도 모델-기반 강화학습이 모델-프리의 비대략적 성능에 맞먹도록 한다.

ABSTRACT

Model-based reinforcement learning (RL) algorithms can attain excellent sample efficiency, but often lag behind the best model-free algorithms in terms of asymptotic performance. This is especially true with high-capacity parametric function approximators, such as deep networks. In this paper, we study how to bridge this gap, by employing uncertainty-aware dynamics models. We propose a new algorithm called probabilistic ensembles with trajectory sampling (PETS) that combines uncertainty-aware deep network dynamics models with sampling-based uncertainty propagation. Our comparison to state-of-the-art model-based and model-free deep RL algorithms shows that our approach matches the asymptotic performance of model-free algorithms on several challenging benchmark tasks, while requiring significantly fewer samples (e.g., 8 and 125 times fewer samples than Soft Actor Critic and Proximal Policy Optimization respectively on the half-cheetah task).

연구 동기 및 목표

샘플 효율적인 강화 학습을 깊은 모형 기반 다이나믹스에 불확실성을 통합하여 모티브화한다.
확실성과 불확실성을 포착하기 위해 신경망과 앙상블을 결합한 불확실성 인식 다이나믹스 모델을 개발한다.
계획 과정에서 불확실성을 전파하기 위해 모델 예측 제어 프레임워크 내에서 궤적 샘플링을 제안한다.
더 적은 샘플로도 모델-프리 방법에 비견되는 수렴적 성능을 달성함을 실증한다.

제안 방법

PETS(궤적 샘플링이 있는 확률적 앙상블)를 제안하여 부트스트랩된 확률 신경망의 앙상블을 사용해 다이나믹스를 모델링한다.
확률적 네트워크를 통한 차원 불확실성(=aleatoric)과 앙상블을 통한 인식 가능한 불확실성(=epistemic)을 분리하고 포착한다.
다중 입자와 부트스트랩 지수를 활용한 궤적 샘플링으로 시간에 걸친 불확실성을 전파한다.
예상되는 보상에 기초하여 예측 궤적을 통해 행동 시퀀스를 최적화하기 위해 교차 엔트로피 방법(CEM)을 사용하는 모델 예측 제어를 각 단계에 적용한다.
데이터에 대해 모델을 학습하고 trial 기반 데이터 수집으로 업데이트하며 모델-프리 및 GP 기반 기준선과 비교 평가한다.

실험 결과

연구 질문

RQ1불확실성 인식 딥 뉴럴 네트워크 다이나믹스 모델이 샘플 복잡성을 줄이면서 모델 기반과 모델 프리 RL 간의 성능 차이를 좁힐 수 있는가?
RQ2계획 및 학습 효율성에 대해 차이불확실성(aleatoric)과 인식가능 불확실성(epistemic) 모델링의 영향은 무엇인가?
RQ3다른 불확실성 전파 방법이 계획 품질과 데이터 효율성에 어떤 영향을 미치는가?
RQ4확률 네트워크의 앙상블이 고차원 제어 과제에 실용적이고 확장 가능한가?
RQ5PETS식 방법이 표준 벤치마크에서 상당히 적은 샘플로도 최첨단 모델-프리 방법과 수렴적 성능을 달성하는가?

주요 결과

PETS는 벤치마크 과제에서 최첨단 모델-프리 방법의 수렴적 성능을 훨씬 적은 샘플로 달성한다.
실험에서 half-cheetah에 대해 Soft Actor Critic 대비 샘플이 8배 더 적게 필요했다.
PETS는 여러 과제에서 기존의 모델 기반 방법 및 일부 모델-프리 기준선보다 우수한 성능을 보이며 모델링 및 계획에 불확실성을 통합하는 가치가 입증되었다.
확률적 앙상블과 궤적 샘플링의 결합은 차원 불확실성과 인식가능 불확실성을 견고하게 처리해 데이터 효율성을 향상시킨다.
모멘트 매칭은 저차원 과제에서 경쟁력 있을 수 있지만 half-cheetah와 같은 고차원 과제에서 신뢰성이 낮다.
모델 선택(PE 앙상블)이 성능에 미치는 영향은 특정 불확실성 전파 기법보다 큰 편이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.