QUICK REVIEW

[论文解读] Data-Driven Physics Embedded Dynamics with Predictive Control and Reinforcement Learning for Quadrupeds

Prakrut Kotecha, Aditya Shirwatkar|arXiv (Cornell University)|Mar 15, 2026

Robotic Locomotion and Control被引用 0

一句话总结

本论文将拉格朗日神经网络整合到用于四足动物运动的RL–MPC框架中，利用反向动力学MPC实现实时规划，同时保持物理一致性并提高样本效率。

ABSTRACT

State of the art quadrupedal locomotion approaches integrate Model Predictive Control (MPC) with Reinforcement Learning (RL), enabling complex motion capabilities with planning and terrain adaptive behaviors. However, they often face compounding errors over long horizons and have limited interpretability due to the absence of physical inductive biases. We address these issues by integrating Lagrangian Neural Networks (LNNs) into an RL MPC framework, enabling physically consistent dynamics learning. At deployment, our inverse dynamics infinite horizon MPC scheme avoids costly matrix inversions, improving computational efficiency by up to 4x with minimal loss of task performance. We validate our framework through multiple ablations of the proposed LNN and its variants. We show improved sample efficiency, reduced long-horizon error, and faster real time planning compared to unstructured neural dynamics. Lastly, we also test our framework on the Unitree Go1 robot to show real world viability.

研究动机与目标

将基于物理的归纳偏置与数据驱动学习相结合，以提高四足运动的可解释性和长时域规划能力。
开发一个产生物理一致性动力学的拉格朗日神经网络（LNN），用于基于模型的规划。
创建一个带有Dreamer信息的物理感知的RL–MPC训练框架，以提高样本效率和鲁棒性。
在部署阶段部署一个反向动力学MPC规划器，以降低计算量并在真实硬件上保持性能。

提出的方法

将质量矩阵参数化为对称正定，通过一个可学习的下三角因子实现。
学习基于LNN的动力学，并使用Dreamer模块为策略训练生成带物理信息的设想轨迹。
使用编码器将本体感知历史映射为完整状态估计，使Dreamer模块能够使用LNN动力学进行未来状态 roll out。
训练采用带特权评论家的非对称演员-评论家设置，并结合物理信息的Dreamer目标，同时专家演员通过PPO与环境交互。
部署一个反向动力学MPC求解器，在实时规划中对关节轨迹进行优化，避免质量矩阵求逆。

实验结果

研究问题

RQ1拉格朗日动力学结合物理先验是否能改善四足动物运动的长时域规划？
RQ2将LNN与RL–MPC框架结合是否在样本效率和实时规划方面优于前向动力学或无结构模型？
RQ3基于反向动力学的MPC在多地形下对四足动物的实时部署是否可行？
RQ4在真实硬件（Unitree Go1）上在多地形上的架构表现如何？
RQ5在高维步态系统中，推理速度与规划性能之间有哪些权衡？

主要发现

该框架在样本效率方面优于非结构化神经网络动力学，且长时域误差更小。
与前向动力学的LNN规划器相比，反向动力学MPC将部署延迟降低最多4×。
该方法在不同时间尺度和地形上保持有竞争力的回报，接近DeLaN的性能但延迟显著降低。
在Unitree Go1上的硬件实验证明了在六种地形上的现实可行性。
该方法在多地形上实现了稳定性能，并相较ONN基线提升了规划鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。