[论文解读] Robust Quadruped Jumping via Deep Reinforcement Learning
该论文提出了一个深度强化学习框架,通过将电机动力学和功率约束整合,学习轨迹偏移以在四足机器人上实现鲁棒跳跃,从而在嘈杂环境下实现零样本仿真到现实转移。
In this paper, we consider a general task of jumping varying distances and heights for a quadrupedal robot in noisy environments, such as off of uneven terrain and with variable robot dynamics parameters. To accurately jump in such conditions, we propose a framework using deep reinforcement learning that leverages and augments the complex solution of nonlinear trajectory optimization for quadrupedal jumping. While the standalone optimization limits jumping to take-off from flat ground and requires accurate assumptions of robot dynamics, our proposed approach improves the robustness to allow jumping off of significantly uneven terrain with variable robot dynamical parameters and environmental conditions. Compared with walking and running, the realization of aggressive jumping on hardware necessitates accounting for the motors' torque-speed relationship as well as the robot's total power limits. By incorporating these constraints into our learning framework, we successfully deploy our policy sim-to-real without further tuning, fully exploiting the available onboard power supply and motors. We demonstrate robustness to environment noise of foot disturbances of up to 6 cm in height, or 33% of the robot's nominal standing height, while jumping 2x the body length in distance.
研究动机与目标
- 提高四足跳跃对不平整地形和参数变化的鲁棒性。
- 利用深度强化学习增强优化跳跃轨迹。
- 将电机转矩–速度约束和电池功率限制纳入学习,以实现可靠的仿真到现实转移。
- 在具有不同环境与干扰的硬件上 Demonstrate zero-shot transfer on hardware with varying environments and disturbances.
提出的方法
- 使用 Soft-Actor Critic (SAC) 来学习一个输出笛卡尔轨迹偏移量 Delta p_RL 以修改优化的跳跃轨迹。
- 通过扭矩–速度模型来表示电机动力学,并在仿真中强制执行板载功率限制。
- 将电机动力学约束和功率约束纳入学习循环,以确保可行的扭矩参考。
- 在带有随机环境扰动和质量/惯性变化的仿真中进行训练;将学习到的策略无需调优就迁移到硬件。
- 在笛卡尔空间学习以实现从观测到轨迹校正的直接映射,并有相应的关节空间偏移以避免冲突增益。
- 将学习到的偏移与现有的笛卡尔和关节 PD 控制器相结合以跟踪轨迹。
实验结果
研究问题
- RQ1深度强化学习如何超越纯轨迹优化提升四足跳跃的鲁棒性?
- RQ2单一学习控制器是否可以在不同跳跃距离/高度和不同关节增益之间实现泛化?
- RQ3将电机动力学和功率约束纳入对动态机动的仿真到现实转移的影响?
- RQ4与基线前馈控制器相比,学习的轨迹偏移策略在环境噪声和干扰下的表现如何?
主要发现
- 在跳跃距离2体长时,DRL 启用的控制器在足部偏差多达 6 cm(名义站立高度的 33%)的情况下仍保持鲁棒跳跃性能。
- 在仿真中,学习到的偏移相对基线前馈控制器显著提高着陆精度和稳定性,适用于高/低关节增益。
- 在显著环境噪声下,该框架优于基线,使在前馈方法失败的情况下仍能进行精确跳跃。
- 在 Unitree A1 硬件上进行的硬件实验中,实现了带有综合电机动力学和功率约束的零样本仿真到现实转移。
- 纳入电机动力学约束和功率限制可在高需求机动中确保电压和功率的可行性,支持硬件的可靠部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。