[论文解读] Temporal Difference Learning for Model Predictive Control
TD-MPC 将一个面向任务的潜在动力学模型和通过时序差分学习得到的终端价值函数结合起来,在短期规划上使用长期价值估计,从而提升连续控制任务的样本效率和性能。
Data-driven model predictive control has two key advantages over model-free methods: a potential for improved sample efficiency through model learning, and better performance as computational budget for planning increases. However, it is both costly to plan over long horizons and challenging to obtain an accurate model of the environment. In this work, we combine the strengths of model-free and model-based methods. We use a learned task-oriented latent dynamics model for local trajectory optimization over a short horizon, and use a learned terminal value function to estimate long-term return, both of which are learned jointly by temporal difference learning. Our method, TD-MPC, achieves superior sample efficiency and asymptotic performance over prior work on both state and image-based continuous control tasks from DMControl and Meta-World. Code and video results are available at https://nicklashansen.github.io/td-mpc.
研究动机与目标
- 动机:将基于模型的规划与无模型学习结合,以提高样本效率和长时域性能。
- 开发一个数据驱动的MPC框架,其潜在动力学模型从奖励中学习,且终端价值函数通过TD学习获得。
- 提出一种面向任务的潜在动力学模型(TOLD),通过避免对无关环境要素建模来降低偏差。
- 在DMControl和Meta-World任务上展示在状态观测和图像观测下的性能提升。
提出的方法
- 在MPC框架内使用模型预测路径积分(MPPI)规划进行短期轨迹优化。
- 学习潜在动力学模型 d_theta 和奖励 R_theta,以及终端价值函数 Q_theta,全部通过TD学习端到端训练。
- 引入面向任务的潜在动力学(TOLD)模型,在潜在空间进行预测,并通过潜在状态一致性损失进行正则化。
- 结合策略 pi_theta 以引导规划,并通过基于策略的轨迹来扩充采样以用于TD目标。
- 优化一个联合目标,其中包含奖励预测、价值预测和潜在状态一致性损失(通过时间反向传播实现)。
实验结果
研究问题
- RQ1TD-MPC 与前沿的基于模型和无模型方法在样本效率和渐近性能方面的比较如何?
- RQ2以奖励为中心的潜在模型(TOLD)是否能在多任务和跨多样连续控制任务中实现有效的迁移学习?
- RQ3在状态观测和图像观测设置下,规划预算和模型精度对TD-MPC 性能有何影响?
主要发现
- TD-MPC 在广泛的 DMControl 和 Meta-World 任务中实现了卓越的样本效率,并且渐近性能具有竞争力甚至更优。
- TOLD 潜在动力学模型通过聚焦于奖励预测成分并使用潜在一致性损失来避免昂贵的观测级预测,从而提升学习效率。
- 在短期内用 MPPI 进行规划并结合学习得到的终端价值函数,即使在高维动作空间(如人形、狗等)也能实现强劲表现。
- TD-MPC 能扩展到基于图像的任务,并在跨模态方面保持鲁棒性,与强大的无模型和有模型基线相比表现具有竞争力。
- 多任务和迁移实验表明 h_theta 的共享表示可以跨任务泛化,而 d_theta 编码更偏向任务特定行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。