QUICK REVIEW

[论文解读] Imitate and Repurpose: Learning Reusable Robot Movement Skills From Human and Animal Behaviors

Steven Bohez, Saran Tunyasuvunakool|arXiv (Cornell University)|Mar 31, 2022

Robotic Locomotion and Control被引用 20

一句话总结

本文从人类和狗的 MoCap 数据中学习一个可重复使用的运动技能模块，用于控制四足机器人，实现零样本模仿以及可控行走和运球等下游任务，具备从仿真到真实的转移。

ABSTRACT

We investigate the use of prior knowledge of human and animal movement to learn reusable locomotion skills for real legged robots. Our approach builds upon previous work on imitating human or dog Motion Capture (MoCap) data to learn a movement skill module. Once learned, this skill module can be reused for complex downstream tasks. Importantly, due to the prior imposed by the MoCap data, our approach does not require extensive reward engineering to produce sensible and natural looking behavior at the time of reuse. This makes it easy to create well-regularized, task-oriented controllers that are suitable for deployment on real robots. We demonstrate how our skill module can be used for imitation, and train controllable walking and ball dribbling policies for both the ANYmal quadruped and OP3 humanoid. These policies are then deployed on hardware via zero-shot simulation-to-reality transfer. Accompanying videos are available at https://bit.ly/robot-npmp.

研究动机与目标

激励使用人类/动物运动先验来提升四足机器人运动能力。
开发一个从 MoCap 数据训练的通用技能模块，可在任务之间重复使用。
通过利用正则化、自然观测的运动，实现从仿真到真实机器人零样本转移。
在两种机器人平台上展示下游任务性能，包括可控行走和球控带球。

提出的方法

将来自人类或狗的 MoCap 数据重新定向到两种机器人（ANYmal 四足机器人和 OP3 人形机器人）。
训练一个通用的目标条件模仿策略，包含一个将未来轨迹帧映射到潜在技能的编码器，以及一个将潜在技能映射到关节指令的解码器。
施加信息瓶颈并将潜在空间正则化为高斯 AR(1) 先验，以获得紧凑、可重复使用的技能空间。
通过训练一个特定任务策略来输出潜在动作，将解码器重用为低级技能模块，以实现下游任务。
完全在仿真中训练，并通过领域和动力学随机化实现零样本仿真到现实的转移。
在仿真和硬件上同时评估零样本模仿和下游任务。

实验结果

研究问题

RQ1基于 MoCap 的先验能否作为对四足机器人控制的可泛化先验？
RQ2单一技能模块是否可以模仿广泛的 MoCap 轨迹并可重复用于多样化任务？
RQ3在仿真中训练的技能模块是否能够无任务特定奖励工程地转移到真实机器人？
RQ4同一个技能模块在不同形态下对可控行走和球控带球等任务的支持程度如何？

主要发现

这些技能模块在仿真和硬件上对关键动作原语实现对 MoCap 片段的可信零样本模仿，适用于 ANYmal 与 OP3。
同一技能模块可重复使用，在仿真和硬件中实现不同方向和速度的可控行走，具有高跟踪精度。
这些模块在仿真和硬件中均能高精度完成带球运球，展示了目标导向的肢体交互。
领域和动力学随机化以及 AR(1) 先验稳定性正则化支持鲁棒的仿真到现实转移和自然的运动风格。
模仿过程中的正则化强度可保留风格并实现更好的重复使用；在模仿与重复使用之间取得平衡的调度能够提升整体性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。