[论文解读] MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
MimicPlay 从廉价的人类玩法数据中学习一个考虑3D的潜在规划器,以引导一个在少量遥操作演示上训练的低层视觉-运动控制器,从而在14个真实世界任务上实现高效、鲁棒的长时域操作。
Imitation learning from human demonstrations is a promising paradigm for teaching robots manipulation skills in the real world. However, learning complex long-horizon tasks often requires an unattainable amount of demonstrations. To reduce the high data requirement, we resort to human play data - video sequences of people freely interacting with the environment using their hands. Even with different morphologies, we hypothesize that human play data contain rich and salient information about physical interactions that can readily facilitate robot policy learning. Motivated by this, we introduce a hierarchical learning framework named MimicPlay that learns latent plans from human play data to guide low-level visuomotor control trained on a small number of teleoperated demonstrations. With systematic evaluations of 14 long-horizon manipulation tasks in the real world, we show that MimicPlay outperforms state-of-the-art imitation learning methods in task success rate, generalization ability, and robustness to disturbances. Code and videos are available at https://mimic-play.github.io
研究动机与目标
- 通过利用廉价的人类玩法数据来学习高级计划,减少长时域模仿学习的数据需求。
- 通过潜在计划空间解耦规划与控制,以引导低层视觉-运动策略。
- 通过一个3D感知的潜在规划器与少量的机器人示范,桥接人类与机器人主体的差异。
- 展示在多种真实世界任务中提高样本效率、泛化能力和鲁棒性。
提出的方法
- 从人类玩法数据中学习一个面向目标的潜在规划器,该规划器在给定目标图像时预测未来的3D人手轨迹。
- 使用基于MLP的高斯混合模型来建模轨迹分布以捕捉多模态。
- 在人体和机器人视觉编码之间最小化KL散度,以减少视觉域差距。
- 训练一个由计划引导的多任务低级控制器(基于Transformer),使用少量遥操作数据将潜在计划和传感器信号映射到动作。
- 用一段短视频(人类或机器人)来提示机器人运动,以生成引导低层控制器的潜在计划。
- 采用两阶段训练:(1) 从人类玩法数据得到潜在规划器;(2) 以潜在计划为条件,用机器人演示数据训练低级控制器。
实验结果
研究问题
- RQ1廉价的人类玩法数据是否能够学习一个健壮且具多模态性的潜在计划空间,以引导长时域的机器人操作?
- RQ2在长时域任务中,分解规划和控制是否相较端到端方法能提升样本效率与泛化能力?
- RQ3少量遥操作数据结合潜在计划在多任务和未见子目标组合上的表现如何?
- RQ4用人类视频进行提示是否能作为通过潜在规划器实现机器人操作的有效目标?
主要发现
| 方法 | 任务-1 | 任务-2 | 任务-3 | 全部 | 简单 | 中等 | 困难 | 全部 | |
|---|---|---|---|---|---|---|---|---|---|
| GC-BC (BC-trans) [52] | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| LMP [5] | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| Ours (0% human) | 0.2 | 0.3 | 0.1 | 0.2 | 0.20 | 0.2 | 0.1 | 0.0 | 0.10 |
| Ours | 0.6 | 0.7 | 0.4 | 0.5 | 0.55 | 0.7 | 0.5 | 0.2 | 0.47 |
- 从人类玩法数据学习的潜在计划显著提升性能,在最少的遥操作数据下在长时域任务中取得显著收益。
- 两阶段的分层学习在长时域环境中优于端到端方法。
- GMM对于捕捉人类轨迹的多模态性至关重要;去除GMM会降低性能和泛化能力。
- 基于KL的对齐在人类与机器人视觉表示之间减少域差距并改善规划。
- 更多的人类玩法数据提升对未见子目标组合和任务的泛化能力,与人类视频提示相比,机器人提示具有竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。