QUICK REVIEW

[논문 리뷰] Temporal Difference Learning for Model Predictive Control

Nicklas Hansen, Xiaolong Wang|arXiv (Cornell University)|2022. 03. 09.

Advanced Control Systems Optimization인용 수 27

한 줄 요약

TD-MPC는 작업 지향적 잠재 동역학 모델과 시간차 학습을 통해 학습된 종단 가치 함수를 결합하여 단기 계획을 수행하고 장기 가치 추정을 활용해 표본 효율성과 연속 제어 과제의 성능을 향상시킨다.

ABSTRACT

Data-driven model predictive control has two key advantages over model-free methods: a potential for improved sample efficiency through model learning, and better performance as computational budget for planning increases. However, it is both costly to plan over long horizons and challenging to obtain an accurate model of the environment. In this work, we combine the strengths of model-free and model-based methods. We use a learned task-oriented latent dynamics model for local trajectory optimization over a short horizon, and use a learned terminal value function to estimate long-term return, both of which are learned jointly by temporal difference learning. Our method, TD-MPC, achieves superior sample efficiency and asymptotic performance over prior work on both state and image-based continuous control tasks from DMControl and Meta-World. Code and video results are available at https://nicklashansen.github.io/td-mpc.

연구 동기 및 목표

샘플 효율성과 장기 성능을 개선하기 위해 모델 기반 계획과 모델-프리 학습의 결합을 제안한다.
보상으로부터 학습된 잠재 동역학 모델과 TD 학습으로 얻은 종단 가치 함수를 갖는 데이터 기반 MPC 프레임워크를 개발한다.
바이어스를 줄이기 위해 무의미한 환경 측면의 모델링을 피하는 작업 지향적 잠재 동역학 모델(TOLD)을 제안한다.
상태 기반 및 영상 기반 관측 모두에서 DMControl 및 Meta-World 과제에서 향상된 성능을 보여준다.

제안 방법

짧은 지평의 경로 최적화를 위해 MPC 프레임워크 내에서 Model Predictive Path Integral(MPPI) 계획을 사용한다.
TD-학습으로 엔드투엔드 학습되는 잠재 동역학 모델 d_theta와 보상 R_theta, 더불어 종단 가치 함수 Q_theta를 학습한다.
잠재 공간에서 예측하고 잠재 상태 일관성 손실을 통해 규제하는 작업 지향적 잠재 동역학(TOLD) 모델을 도입한다.
계획을 안내하기 위해 정책 pi_theta를 도입하고 TD 타깃에 대한 정책 기반 경로로 샘플링을 확장한다.
보상 예측, 가치 예측 및 잠재 상태 일관성 손실(시간 역전파를 통한)을 포함하는 공동 목적 함수를 최적화한다.

실험 결과

연구 질문

RQ1TD-MPC가 표본 효율성과 수렴 성능에서 최첨단 모델 기반 및 모델-프리 접근법과 어떻게 비교되는가?
RQ2보상 중심의 잠재 모델(TOLD)이 다양한 연속 제어 과제 전반에서 효과적인 멀티태스크 및 전이 학습을 가능하게 할까?
RQ3상태 기반 및 영상 기반 설정에서 계획 예산과 모델 정확도가 TD-MPC 성능에 미치는 영향은 무엇인가?

주요 결과

TD-MPC는 DMControl 및 Meta-World 과제 전반에서 우수한 샘플 효율성과 경쟁력이 있거나 더 우수한 수렴 성능을 달성한다.
TOLD 잠재 동역학 모델은 보상 예측 구성요소에 초점을 맞추고 잠재 일관성 손실을 사용해 비싼 관찰 수준 예측을 피함으로써 학습 효율성을 향상시킨다.
짧은 지평에서 MPPI로 계획하고 학습된 종단 가치 함수를 결합하면 고차원 행동 공간(예: Humanoid, Dog)에서도 강한 성능을 보여준다.
TD-MPC는 영상 기반 과제까지 확장되며 모달리티에 걸쳐 견고함을 유지하고 강력한 모델-프리 및 모델-기반 기준선에 대항해 경쟁력 있는 결과를 보여준다.
다중 작업 및 전이 실험은 h_theta의 공유 표현이 작업 간 일반화될 수 있음을, 반면 d_theta는 더 작업 특화된 동작을 인코딩한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.