QUICK REVIEW

[论文解读] Robot Parkour Learning

Ziwen Zhuang, Zipeng Fu|arXiv (Cornell University)|Sep 11, 2023

Robotic Locomotion and Control被引用 10

一句话总结

本论文提出一个两阶段强化学习系统，通过在仿真实验中训练具有软/硬动力学约束的专业技能，并将其蒸馏成一个单一的端到端、基于视觉的公园跑步策略，以在机载深度视觉与本体感知下运行。

ABSTRACT

Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.

研究动机与目标

将自主公园跑步作为一个可推广的、基于视觉的低成本小型机器人运动挑战来激励研究。
开发一个两阶段RL框架，在软与硬动力学约束下学习多样化的公园跑步技能。
创建一个蒸馏管线，将多种专门技能融合为一个使用机载传感的单一视觉基础策略。
展示从仿真到现实的传导与在具备机载感知和计算能力的低成本机器人上的部署。

提出的方法

两阶段RL训练：先进行带软动力学约束的预训练，允许通过自动课程安排穿越障碍物；随后再进行带硬动力学约束的微调。
五种公园跑步技能分开学习：跨越高障碍、跨大间隙、在低栅障下方爬行、通过缝隙时的倾斜、以及奔跑；每个技能以简单奖励（前进与能量保守）进行训练。
训练时使用的特权信息（障碍物距离、高度、宽度与类别）来指导技能策略；输出为目标关节位置。
通过 DAgger 的蒸馏，利用机载本体感知、深度图嵌入和先前动作，学习单一基于视觉的公园跑步策略；监督信号来自专门化策略。
通过深度图像预处理、机载延迟标定与电机安全措施实现仿真到现实 bridiging；部署使用深度图的浅层CNN嵌入与基于GRU的策略。

实验结果

研究问题

RQ1一个端到端的单一视觉策略是否能够为低成本四足机器人学习多样化的公园跑步技能？
RQ2两阶段RL方法（软动力学约束先行再硬动力学约束）在探索与掌握复杂公园跑步任务方面有多大效果？
RQ3蒸馏是否能够将多种专门技能整合为一个仅依赖机载感知的策略？
RQ4在计算和感知能力有限的真实机器人上部署这类策略需要哪些仿真到现实的策略？
RQ5学到的策略是否能在不同机器人平台（A1 与 Go1）和真实环境中泛化？

主要发现

Method	Climb Success (%)	Leap Success (%)	Crawl Success (%)	Tilt Success (%)	Run Success (%)	Climb Distance (m)	Leap Distance (m)	Crawl Distance (m)	Tilt Distance (m)	Run Distance (m)
Blind	0	0	13	0	100	1.53	1.86	2.01	1.62	3.6
MLP	0	1	63	43	100	1.59	1.74	3.27	2.31	3.6
No Distill	0	0	73	0	100	1.57	1.75	2.76	1.86	3.6
RMA	-	-	-	74	-	2.70	-	-	-	-
Ours (parkour policy)	86	80	100	73	100	2.37	3.05	3.60	2.68	3.6
Oracles w/o Soft Dyn	0	0	93	86	100	1.54	1.73	3.58	1.73	3.6
Oracles (w/ Soft Dyn)	95	82	100	100	100	3.60	3.59	3.60	2.78	3.6

公园跑步策略仅使用机载深度感知与本体感知即可实现攀爬高达 0.40 m 的障碍、跨越高达 0.60 m 的间隙、在低栅障下方爬行到 0.20 m、通过缝隙时的倾斜到 0.28 m，以及奔跑。
带软动力学约束的两阶段RL加速学习并相较基线与消融方法提高最终成功率。
基于GRU的视觉策略优于MLP基线；记忆对于攀爬与跨越任务至关重要。
蒸馏成单一视觉基础公园跑步策略实现稳健的仿真到现实传导，并在真实机器人上优于盲目与其他基线。
实验表明策略从仿真可泛化至两种机器人（Unitree A1 与 Go1），并在具备机载计算、深度输入为 10 Hz、控制循环为 50 Hz 的条件下运行。
该方法在室内外真实环境中均表现出色，在测量指标上优于 MPC 基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。