Skip to main content
QUICK REVIEW

[논문 리뷰] Plan Online, Learn Offline: Efficient Learning and Exploration via Model-Based Control

Kendall Lowrey, Aravind Rajeswaran|arXiv (Cornell University)|2018. 11. 05.
Reinforcement Learning in Robotics참고 문헌 36인용 수 66
한 줄 요약

POLO는 온라인 궤적 최적화와 오프라인 가치 함수 학습 및 불확실성 기반 탐색을 결합하여 고차원 제어 작업에서 효율적이고 계획 기반의 학습을 가능하게 한다.

ABSTRACT

We propose a plan online and learn offline (POLO) framework for the setting where an agent, with an internal model, needs to continually act and learn in the world. Our work builds on the synergistic relationship between local model-based control, global value function learning, and exploration. We study how local trajectory optimization can cope with approximation errors in the value function, and can stabilize and accelerate value function learning. Conversely, we also study how approximate value functions can help reduce the planning horizon and allow for better policies beyond local solutions. Finally, we also demonstrate how trajectory optimization can be used to perform temporally coordinated exploration in conjunction with estimating uncertainty in value function approximation. This exploration is critical for fast and stable learning of the value function. Combining these components enable solutions to complex simulated control tasks, like humanoid locomotion and dexterous in-hand manipulation, in the equivalent of a few minutes of experience in the real world.

연구 동기 및 목표

  • 복잡한 세계에서 내부 동역학 모델을 사용한 지속적인 행위 및 학습을 촉진한다.
  • 로컬 궤적 최적화가 전역 가치 함수 학습과 어떻게 상호작용하여 학습을 안정화하고 가속하는지 보인다.
  • 근사적인 가치 함수가 계획 기간을 줄이고 정책 품질을 향상시킬 수 있음을 시연한다.
  • 궤적 최적화를 이용하여 시계열적으로 조정된 탐색을 수행하는 탐색 전략을 개발한다.

제안 방법

  • 명목 동역학 모델을 기반으로 로컬 최적의 행동 시퀀스를 계산하기 위해 모델 기반 궤적 최적화(MPC)를 사용한다.
  • 가이드를 위해 전역 가치 함수 V를 학습하기 위해 매개변수 함수 근사기를 사용한 적합된 값 반복을 적용한다.
  • 다중 가치 함수 근사기를 유지하고 이들의 출력에 대한 소프트맥스를 사용하여 낙관적 가치 추정치를 형성함으로써 불확실성 인식 탐색을 도입한다.
  • 가치 함수에 대한 후방 분포 하에서 궤적을 최적화하여 탐색을 계획하고 시계열적으로 조정된 탐색을 가능하게 한다.
  • 학습 속도를 높이고 훈련을 안정화하기 위해 값 함수 업데이트를 위한 N-단계 궤적 기반 타깃을 정의한다(Eq. 7).
  • 경험을 반복적으로 수집하고, 가치 함수의 앙상블을 업데이트하며, 낙관적인 종료 가치로 MPC를 실행한다.

실험 결과

연구 질문

  • RQ1궤적 최적화와 불확실성 추정이 결합될 때 시계열로 조정된 탐색이 가능해지는가?
  • RQ2학습된 가치 함수가 MPC가 성능 저하 없이 더 짧은 계획 구간을 사용할 수 있게 하는가?
  • RQ3고차원 작업에서 궤적 최적화가 가치 함수 학습을 가속하고 안정화하는가?
  • RQ4제약된 실제 경험으로도 POLO가 복잡한 작업(예: 휴머노이드 보행, 지향 조작)을 해결할 수 있는가?

주요 결과

  • 궤적 최적화는 상태 공간에서 영역 커버리지를 향상시키는 지시적이고 시계열적으로 조정된 탐색을 가능하게 한다.
  • 고차원 작업에서 plain MPC에 비해 POLO가 우위의 계획 구간으로 더 빠른 기술 습득과 더 나은 성능을 보인다.
  • longer horizon planning with MPC tolerates value-function approximation errors more robustly than greedy policies.
  • N-step 궤적 최적화는 가치 함수 학습을 가속하고 타깃을 안정화한다.
  • 학습된 가치 함수가 보상이 희박하거나 변하는 경우에도 MPC가 작업 진행을 달성하도록 안내할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.