Skip to main content
QUICK REVIEW

[论文解读] Learning a Contact-Adaptive Controller for Robust, Efficient Legged Locomotion

Xingye Da, Zhaoming Xie|arXiv (Cornell University)|Sep 21, 2020
Robotic Locomotion and Control被引用 13
一句话总结

本文提出了一种分层的接触自适应控制器,用于四足机器人,通过将基于模型的控制与强化学习相结合,实现鲁棒且节能的运动。高层强化学习控制器根据实时环境反馈从预定义的运动基元中进行选择,而低层控制器则确保执行的稳定性;该系统相比基线方法实现了高达85%的能效提升,并展现出更优的鲁棒性,在物理Unitree Laikago机器人上无需随机化或微调即可泛化至未见过的地形。

ABSTRACT

We present a hierarchical framework that combines model-based control and reinforcement learning (RL) to synthesize robust controllers for a quadruped (the Unitree Laikago). The system consists of a high-level controller that learns to choose from a set of primitives in response to changes in the environment and a low-level controller that utilizes an established control method to robustly execute the primitives. Our framework learns a controller that can adapt to challenging environmental changes on the fly, including novel scenarios not seen during training. The learned controller is up to 85~percent more energy efficient and is more robust compared to baseline methods. We also deploy the controller on a physical robot without any randomization or adaptation scheme.

研究动机与目标

  • 开发一种鲁棒且节能的控制器,用于腿式机器人,能够实时适应动态和未见过的环境条件。
  • 解决传统基于模型的控制与端到端强化学习在处理接触不确定性与新地形方面的局限性。
  • 实现在物理机器人上直接部署学习到的控制器,而无需领域随机化或微调。
  • 通过混合基于模型与强化学习的框架,提升腿式运动的能效与鲁棒性。

提出的方法

  • 该框架采用分层架构,高层强化学习控制器根据环境反馈从一组预定义的运动基元中进行选择。
  • 低层控制器使用成熟的控制方法(例如操作空间控制或计算转矩法)来稳健执行所选基元。
  • 高层控制器通过强化学习进行训练,以根据地形变化和接触条件动态调整基元选择。
  • 系统在模拟环境中进行训练,涵盖多样的地形条件,从而在推理阶段实现对新型未见环境的有效泛化。
  • 未使用领域随机化或仿真到现实的适应技术,使得控制器可直接部署于物理Unitree Laikago机器人上。
  • 控制器通过观察接触状态并动态调整运动基元,学习接触自适应行为。

实验结果

研究问题

  • RQ1分层强化学习与基于模型的控制框架是否能够在不使用领域随机化的情况下,实现在未见地形上的鲁棒腿式运动?
  • RQ2将学习到的基元选择与稳定的低层控制相结合,如何提升四足机器人的能效?
  • RQ3学习到的控制器在训练期间未出现的新型环境条件下,其泛化能力达到何种程度?
  • RQ4与基线控制方法相比,该控制器在能效与鲁棒性方面带来了多大的性能提升?
  • RQ5此类控制器是否可直接部署于物理机器人上,而无需仿真到现实的适应过程?

主要发现

  • 所提出的控制器相比基线方法实现了高达85%的能效提升,显著提高了运行续航能力。
  • 控制器在处理训练期间未见过的复杂与新型地形条件时,表现出更优的鲁棒性。
  • 由于其接触自适应的基元选择机制,系统能够有效泛化至未见环境。
  • 控制器已成功部署于物理Unitree Laikago机器人上,且未使用任何领域随机化或仿真到现实的适应技术。
  • 分层设计通过结合基于模型控制的可靠性与强化学习的适应性,实现了稳定且高效的运动。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。