QUICK REVIEW

[논문 리뷰] Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning

Yevgen Chebotar, Karol Hausman|arXiv (Cornell University)|2017. 03. 08.

Reinforcement Learning in Robotics참고 문헌 27인용 수 86

한 줄 요약

PILQR는 모델 기반 LQR-FLM 업데이트를 모델-프리 PI 2 업데이트와 통합하여 궤적 중심 정책을 가능하게 하여 데이터 효율적 학습 및 GPS를 통한 신경망의 효과적인 훈련을 시뮬레이션과 실제 로봇 모두에서 가능하게 한다.

ABSTRACT

Reinforcement learning (RL) algorithms for real-world robotic applications need a data-efficient learning process and the ability to handle complex, unknown dynamical systems. These requirements are handled well by model-based and model-free RL approaches, respectively. In this work, we aim to combine the advantages of these two types of methods in a principled manner. By focusing on time-varying linear-Gaussian policies, we enable a model-based algorithm based on the linear quadratic regulator (LQR) that can be integrated into the model-free framework of path integral policy improvement (PI2). We can further combine our method with guided policy search (GPS) to train arbitrary parameterized policies such as deep neural networks. Our simulation and real-world experiments demonstrate that this method can solve challenging manipulation tasks with comparable or better performance than model-free methods while maintaining the sample efficiency of model-based methods. A video presenting our results is available at https://sites.google.com/site/icml17pilqr

연구 동기 및 목표

미지의 역학을 가진 실제 로봇에 대한 데이터 효율적 강화 학습 동기 부여.
빠른 모델 기반 업데이트를 가능하게 하는 시변 선형가우시안 정책(TVLG) 활용.
단일 궤적 중심 프레임워크에서 모델 기반 업데이트와 모델 프리 보정을 결합.
일반 목적 신경망 정책을 학습하기 위한 guided policy search에 PILQR 통합.
시뮬레이션 작업과 실제 로봇 조작 작업에서의 효과성 시연.

제안 방법

Gaussian으로 모델링된 p(u_t|x_t)와 p(x_{t+1}|x_t,u_t) dynamics를 사용한 시변 선형가우시안(TVLG) 정책.
LQR-FLM에 근사된 선형 모델을 확장하여 로컬 2차 비용 근사를 이용한 KL-제한된 업데이트를 수행한다.
비용-으로 가이드된 목표-합 비용 via S와 꺾쇠된 경로의 소프트맥스 재가중을 통해 모델-프리, KL-제한 업데이트로 PI2 채택.
두 단계 PI 2 업데이트 도입: 먼저 모델 기반 비용 근사로 업데이트하고, 그런 다음 남은 비용을 PI 2로 업데이트.
PI 2 업데이트를 모델 기반 근사 hat{S}와 잔여 tilde{S}로 분해하고 식(5)-(6)처럼 순차적으로 업데이트 수행.
두 단계 PILQR 알고리즘(Algorithm 1) 도입: 궤적 생성, TVLG 동역학 적합, hat{c}와 tilde{c} 계산, KL 스텝 epsilon_t 조정, eta_t 계산, hat{c}에 대해 LQR-FLM 수행, 그 후 tilde{c}에 PI 2 수행.

실험 결과

연구 질문

RQ1PILQR가 궤적 중심 작업에서 모델 기반 또는 모델 프리 기준선보다 최종 성능과 샘플 효율성에서 더 우수한가?
RQ2PILQR가 GPS를 통해 고차원 신경망 정책을 모델 기반 방법과 비교할 만큼의 샘플 효율성으로 학습할 수 있는가?
RQ3PILQR가 시뮬레이션과 실제 로봇 플랫폼에서 불연속적 역학을 가진 복잡한 조작 작업을 해결할 수 있는가?
RQ4LQR-FLM 업데이트와 PI 2 보정의 결합이 학습 안정성과 수렴에 어떤 영향을 미치는가?

주요 결과

PILQR는 시뮬레이션에서 어려운 그리퍼 푸셔 및 문 열기 작업에서 LQR-FLM과 PI 2를 능가하며, 조건당 약 400 에피소드 정도의 데이터로 모든 조건을 해결했다.
MDGPS와 PILQR는 특정 작업에서 샘플 수가 훨씬 적으면서도 심층 RL 기준선에 비견되는 성능의 신경망 정책을 학습한다.
실제 로봇에서의 호키(Hockey) 및 파워 플러그 꽂기 작업에서 PILQR는 시연 없이도 한 시간 미만의 경험으로 강인한 정책을 학습한다.
PILQR은 호키에서 다양한 목표 위치 간 일반화되는 신경망 정책을 90%의 성공률로 달성한다.
PI 2 단독으로 어려움을 겪는 경우와 LQR-FLM 단독으로 불연속적 역학의 작업에서 실패하는 경우에서 가장 우수한 성능을 보이며, 하이브리드 접근의 이점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.