[논문 리뷰] Exploring Model-based Planning with Policy Networks
POPLIN은 신경망을 사용하여 행동 시퀀스나 정책 파라미터를 최적화하는 모델 기반 정책 계획을 도입하고, 파라미터 공간에서 정책 네트워크 초기화를 통해 MuJoCo 작업에서 최첨단 샘플 효율성을 달성한다.
Model-based reinforcement learning (MBRL) with model-predictive control or online planning has shown great potential for locomotion control tasks in terms of both sample efficiency and asymptotic performance. Despite their initial successes, the existing planning methods search from candidate sequences randomly generated in the action space, which is inefficient in complex high-dimensional environments. In this paper, we propose a novel MBRL algorithm, model-based policy planning (POPLIN), that combines policy networks with online planning. More specifically, we formulate action planning at each time-step as an optimization problem using neural networks. We experiment with both optimization w.r.t. the action sequences initialized from the policy network, and also online optimization directly w.r.t. the parameters of the policy network. We show that POPLIN obtains state-of-the-art performance in the MuJoCo benchmarking environments, being about 3x more sample efficient than the state-of-the-art algorithms, such as PETS, TD3 and SAC. To explain the effectiveness of our algorithm, we show that the optimization surface in parameter space is smoother than in action space. Further more, we found the distilled policy network can be effectively applied without the expansive model predictive control during test time for some environments such as Cheetah. Code is released in https://github.com/WilsonWangTHU/POPLIN.
연구 동기 및 목표
- 고차원 로봇 보행 태스크에 대한 모델 기반 강화학습에서 샘플 효율성 향상을 도모한다.
- 온라인 계획을 위한 우수한 제안을 생성하기 위해 정책 네트워크를 활용하는 계획 프레임워크를 제안한다.
- 정책 파라미터 공간에서의 계획이 더 매끄러운 최적화 면과 더 나은 탐색 효율을 제공함을 보인다.
- MuJoCo 벤치마크에서 최첨단 성능과 상당한 샘플 효율성 향상을 시연한다.
제안 방법
- 각 시간 단계에서의 계획을 행동 시퀀스 또는 정책 파라미터 중 하나에 대한 최적화로 정의한다.
- POPLIN-A: 정책 네트워크를 사용하여 행동 시퀀스를 제안하고 행동 공간에서 Cross-Entropy Method (CEM)으로 정제한다.
- POPLIN-P: 네트워크 파라미터를 섭동하고 결과 정책을 평가하여 정책 파라미터 공간에서 계획을 수행한다.
- 두 가지 증류 경로: 정책 증류(BC, GAN)와 AVG 기반 업데이트로 계획 경험을 축적한다.
- MPC-준비 제어(먼저 계획하고 첫 행동을 실행)와 직접 정책 제어(정책 출력 실행)를 비교한다.
- 최적화 면의 매끄러움 및 파라미터 공간 계획의 이점에 대한 실증 분석을 제공한다.
실험 결과
연구 질문
- RQ1정책 네트워크를 온라인 계획과 통합하면 PETS와 같은 전통적인 무작위 샷 MPC 방법에 비해 샘플 효율성을 향상시킬 수 있는가?
- RQ2정책 파라미터 공간에서의 계획이(행동 공간의 노이즈와는 달리) 더 매끄러운 최적화 지평으로 인해 더 쉬운가?
- RQ3다양한 정책 증류 전략이 최종 작업 성능과 실시간 제어 가능성에 어떤 영향을 미치는가?
주요 결과
- POPLIN은 MuJoCo 벤치마크에서 최첨단 성능을 달성하고 PETS, TD3, SAC에 비해 약 3배의 샘플 효율성을 보인다.
- 파라미터 공간에서의 계획(POPLIN-P)은 행동 공간에서의 계획보다 더 매끄러운 최적화 면을 제공하여 더 효과적인 탐색을 가능하게 한다.
- 일부 환경에서 증류된 정책 네트워크는(예: Cheetah) 광범위한 온라인 계획 없이도 테스트 시점에 우수하게 수행할 수 있다.
- POPLIN-A는 단순한 과제(Pendulum, Cart-pole, Swimmer)에서 뛰어나지만 더 복잡한 과제(Ant, Cheetah, Hopper)에서는 POPLIN-P보다 유리하지 않다.
- POPLIN-P 변형(Uni, Sep, Avg, GAN, BC)은 환경에 따라 서로 다른 강점을 보이며, 일반적으로 planning 효율성 면에서 POPLIN-P-Sep가 POPLIN-P-Uni를 능가하는 경우가 많다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.