QUICK REVIEW

[论文解读] Robust Recovery Controller for a Quadrupedal Robot using Deep Reinforcement Learning

Joonho Lee, Jemin Hwangbo|arXiv (Cornell University)|Jan 22, 2019

Robotic Locomotion and Control被引用 42

一句话总结

本文提出一个分层的、无模型深度强化学习控制器，包含三个行为（自我纠正、站立、移动）以及一个行为选择器和一个高度估计器，使 ANYmal 能从跌落中恢复；在100+次试验中成功率超过97%，并在5秒内完成恢复。

ABSTRACT

The ability to recover from a fall is an essential feature for a legged robot to navigate in challenging environments robustly. Until today, there has been very little progress on this topic. Current solutions mostly build upon (heuristically) predefined trajectories, resulting in unnatural behaviors and requiring considerable effort in engineering system-specific components. In this paper, we present an approach based on model-free Deep Reinforcement Learning (RL) to control recovery maneuvers of quadrupedal robots using a hierarchical behavior-based controller. The controller consists of four neural network policies including three behaviors and one behavior selector to coordinate them. Each of them is trained individually in simulation and deployed directly on a real system. We experimentally validate our approach on the quadrupedal robot ANYmal, which is a dog-sized quadrupedal system with 12 degrees of freedom. With our method, ANYmal manifests dynamic and reactive recovery behaviors to recover from an arbitrary fall configuration within less than 5 seconds. We tested the recovery maneuver more than 100 times, and the success rate was higher than 97 %.

研究动机与目标

解决四足机器人鲁棒跌倒恢复的挑战。
通过使用无模型深度强化学习，消除对手工设计的恢复轨迹的依赖。
开发一个分层控制器，将多种学习得到的行为组合用于复杂恢复任务。
通过高保真仿真和领域随机化确保可靠的仿真到现实传输。
在多种跌落场景下对 ANYmal 机器人进行实验验证。

提出的方法

将控制分解为三个学习到的行为：自我纠正、站立和移动，由学习到的行为选择器协同协调。
使用 TRPO+GAE，在仿真中分别训练每个行为，采用任务特定的代价函数和初始状态分布。
将策略输出表示为12维关节位置目标，以用于低阻抗 PD 控制器，提升学习效率和鲁棒性。
部署时，使用 TSIF 进行基座姿态估计，以及一个神经高度估计器来保持对基座高度的可靠感知。
为 SEA 实现数据驱动的执行器模型和随机化物理属性，以改善 sim-to-real 传输。
训练一个行为选择器，在预训练的行为之间进行选择，优化转换和鲁棒性，同时训练基于观测数据的高度估计器。

实验结果

研究问题

RQ1分层神经策略框架是否能够从任意跌倒配置中恢复？
RQ2将单独的行为与一个学习得到的选择器相结合，与单一策略学习在恢复任务中的比较？
RQ3将高度估计器引入是否提升恢复和行为切换的可靠性？
RQ4该方法对现实世界干扰和建模误差的鲁棒性如何？

主要发现

恢复控制器使 ANYmal 能在5秒内从任意跌倒配置恢复。
在真实机器人上，在超过100次试验中取得高于97%的成功率。
仿真与现实部署显示行为切换时机和动作非常相似。
高度估计器对于维持稳定的基座高度估计和避免不期望的行为切换至关重要。
一个简单的人工设计的有限状态机可以工作但鲁棒性较差且需要比学习到的行为选择器更多的设计迭代。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。