[논문 리뷰] Model-Ensemble Trust-Region Policy Optimization
ME-TRPO은 모델 앙상블과 신뢰구간 정책 최적화를 사용하여 모델 기반 깊은 RL에서 샘플 효율성을 최상위 수준으로 달성하고 데이터 약 100배를 절감하며 모델-프리 성능과 맞먹습니다.
Model-free reinforcement learning (RL) methods are succeeding in a growing number of tasks, aided by recent advances in deep learning. However, they tend to suffer from high sample complexity, which hinders their use in real-world domains. Alternatively, model-based reinforcement learning promises to reduce sample complexity, but tends to require careful tuning and to date have succeeded mainly in restrictive domains where simple models are sufficient for learning. In this paper, we analyze the behavior of vanilla model-based reinforcement learning methods when deep neural networks are used to learn both the model and the policy, and show that the learned policy tends to exploit regions where insufficient data is available for the model to be learned, causing instability in training. To overcome this issue, we propose to use an ensemble of models to maintain the model uncertainty and regularize the learning process. We further show that the use of likelihood ratio derivatives yields much more stable learning than backpropagation through time. Altogether, our approach Model-Ensemble Trust-Region Policy Optimization (ME-TRPO) significantly reduces the sample complexity compared to model-free deep RL methods on challenging continuous control benchmark tasks.
연구 동기 및 목표
- 강화학습에서 학습된 동역학 모델을 활용하여 샘플 복잡도를 낮추는 동기를 부여한다.
- 모델과 정책 모두에 신경망을 사용할 때 발생하는 vanilla 모델 기반 깊은 RL의 불안정성을 조사한다.
- 모델 불확실성을 유지하고 정책 업데이트를 안정화하는 견고한 학습 프레임워크를 개발한다.
- 앙상블 모델과 TRPO가 도전적인 태스크에서 안정성과 성능을 향상시키는지 보여준다.
제안 방법
- 불확실성을 포착하기 위해 신경 동역학 예측기의 모델 앙상블을 도입한다.
- 수집된 실제 데이터를 바탕으로 모든 모델을 학습하고 앙상블에서 허구의 롤아웃을 샘플링한다.
- 정책 최적화를 위해 시간에 따른 역전파(Backpropagation Through Time)를 가능도 비율 기울기 추정기로 교체한다.
- imagined trajectories에 대한 정책 업데이트를 제약하기 위해 Trust Region Policy Optimization(TRPO)을 사용한다.
- 모든 앙상블 모델의 성능 모니터링으로 정책 업데이트를 검증하고 개선이 임계값 이하로 떨어지면 중단한다.
- 앙상블을 정제하고 정책을 재훈련하기 위해 실제 환경 데이터를 반복적으로 수집한다.
실험 결과
연구 질문
- RQ1신경 동역학을 사용하는 모델 기반 RL이 샘플 효율성과 최종 성능에서 최첨단 모델-프리 방법과 어떻게 비교되는가?
- RQ2동역학 모델의 앙상블이 정책 학습을 정규화하고 모델 편향을 완화할 수 있는가?
- RQ3BPTT를 가능도-비율 기울기 추정기로 대체하면 장기-목표 작업에서 학습이 안정되는가?
- RQ4TRPO가 모듈 기반의 앙상블 정규화 프레임워크 내에서 다른 정책 기울기 방법과 비교하여 어떤 성능을 보이는가?
주요 결과
- 이 방법은 실제 데이터 약 100배 덜 사용하고도 모델-프리 성능과 맞먹는다.
- vanilla 모델 기반 깊은 RL은 특히 긴 시간 축에서 불안정성과 모델 편향으로 고통받는다.
- 동역학 모델의 앙상블 사용은 정규화를 제공하고 특정 단일 모델에 대한 과적합을 줄여준다.
- BPTT를 TRPO로 대체하면 더 안정적이고 효과적인 정책 학습이 가능하다.
- 앙상블 내 모델 수를 늘리면 Half-Cheetah 및 Ant와 같은 복잡한 태스크에서 성능이 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.