[论文解读] Data Efficient Reinforcement Learning for Legged Robots
该论文提出了一种基于模型的强化学习框架,仅使用4.5分钟的真实世界数据,便使四足机器人学会稳健且快速的行走,其样本效率比当前最先进的无模型方法高出一个数量级以上。通过采用多步损失函数进行长时域动力学建模、引入延迟补偿的模型预测控制(MPC),以及基于轨迹生成器的动作正则化,该系统实现了稳定的运动控制,并可通过更改奖励函数实现新任务的泛化,而无需重新训练。
We present a model-based framework for robot locomotion that achieves walking based on only 4.5 minutes (45,000 control steps) of data collected on a quadruped robot. To accurately model the robot's dynamics over a long horizon, we introduce a loss function that tracks the model's prediction over multiple timesteps. We adapt model predictive control to account for planning latency, which allows the learned model to be used for real time control. Additionally, to ensure safe exploration during model learning, we embed prior knowledge of leg trajectories into the action space. The resulting system achieves fast and robust locomotion. Unlike model-free methods, which optimize for a particular task, our planner can use the same learned dynamics for various tasks, simply by changing the reward function. To the best of our knowledge, our approach is more than an order of magnitude more sample efficient than current model-free methods.
研究动机与目标
- 解决通过无模型强化学习训练腿式机器人运动策略时存在的高样本量和高硬件成本问题。
- 通过结合高精度长时域动力学建模的基于模型规划,提升真实世界机器人学习的样本效率。
- 在存在规划延迟的情况下,通过延迟补偿的MPC实现实时控制,确保在物理机器人上的高性能。
- 通过将腿部轨迹的先验知识嵌入动作空间,确保模型学习过程中的安全探索。
- 通过复用同一套学习到的动力学模型并仅更改奖励函数,实现在不重新训练的情况下实现任务泛化。
提出的方法
- 引入多步损失函数,通过跟踪多个时间步的模型误差,提升长时域预测精度,减少规划过程中的误差累积。
- 通过从预测的未来状态开始规划,对模型预测控制(MPC)进行延迟补偿,实现在高控制频率下的实时性能。
- 采用GPU加速的基于采样的CEM(交叉熵方法)规划器,在实时约束下高效优化动作序列。
- 将轨迹生成器(TG)嵌入动作空间,以强制实现平滑、周期性的腿部运动,防止探索过程中的机械应力。
- 通过使用所有收集到的轨迹的回放缓冲区,定期重新训练动力学模型,以减少训练与部署之间的分布偏移。
- 系统在数据收集与模型学习之间循环迭代,实现在极少数据下持续改进。
实验结果
研究问题
- RQ1基于模型的强化学习框架是否能在显著少于无模型方法的真实世界数据样本下,实现稳健的腿式运动?
- RQ2如何缓解长时域内模型误差的累积,以确保在动态、接触丰富的环境中基于MPC的可靠控制?
- RQ3在实时控制系统中,应采用何种技术来补偿规划延迟,以维持高频性能?
- RQ4在模型学习过程中,如何在不损坏机器人硬件的前提下实现安全探索?
- RQ5一个单一学习到的动力学模型是否能无需重新训练或微调即可泛化到多个运动任务?
主要发现
- 所提方法仅使用36次轨迹采样(即4.5分钟真实世界数据),便在Minitaur四足机器人上实现了稳定且快速的行走,相较于同一硬件上最先进的无模型方法,样本效率提升了10倍。
- 多步损失函数显著提升了长时域预测精度,随着损失函数中包含的时间步数增加,模型对真实轨迹的跟踪更加紧密。
- 延迟补偿的MPC使控制器能够在高速下保持性能,若未采用异步控制,系统在速度超过0.4 m/s时无法跟踪目标速度。
- 在动作空间中引入轨迹生成器可实现更平滑、更周期性的电机动作,避免因未使用TG而导致的硬件损坏。
- 学习到的动力学模型可泛化至新任务而无需重新训练——仅通过更改奖励函数即可实现新步态,展现出强大的任务迁移能力。
- 消融实验表明,CEM至少需要五次迭代,并采用适度的平滑参数(γ = 0.5)才能达到最佳性能;而规划时域为450ms时,在长期回报与模型误差敏感性之间达到最佳平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。