QUICK REVIEW

[论文解读] BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning

Eric Jang, Alex Irpan|arXiv (Cornell University)|Feb 4, 2022

Robot Manipulation and Learning参考文献 30被引用 89

一句话总结

BC-Z 通过学习一个大规模、交互式模仿策略，并以语言或人类视频为条件，对新颖的基于视觉的操作任务进行零-shot和少-shot泛化，在这些任务上未提供演示的情况下，达到 24 个未见任务，平均成功率为 44%。

ABSTRACT

In this paper, we study the problem of enabling a vision-based robotic manipulation system to generalize to novel tasks, a long-standing challenge in robot learning. We approach the challenge from an imitation learning perspective, aiming to study how scaling and broadening the data collected can facilitate such generalization. To that end, we develop an interactive and flexible imitation learning system that can learn from both demonstrations and interventions and can be conditioned on different forms of information that convey the task, including pre-trained embeddings of natural language or videos of humans performing the task. When scaling data collection on a real robot to more than 100 distinct tasks, we find that this system can perform 24 unseen manipulation tasks with an average success rate of 44%, without any robot demonstrations for those tasks.

研究动机与目标

扩大数据收集规模，以实现基于视觉的机器人操作的广泛泛化。
使用替代的任务规格（语言或视频）实现对新任务的零-shot和少-shot泛化。
探究具备共享自治和 HG-DAgger 的互动式模仿学习如何影响数据质量和泛化。
研究任务条件信号（语言嵌入 vs. 视频嵌入）在何处最能支持对未见任务的泛化。

提出的方法

在真实机器人上收集一个规模庞大的数据集，包含 25,877 次演示，覆盖 100 项操作任务。
训练一个 7-自由度的多任务策略，条件取自基于语言字符串或人类视频得到的任务嵌入。
使用一个编码器 q(z|w) 将任务指令（语言或视频）映射到一个 512 维的嵌入 z。
通过 FiLM 层将策略条件化到 z，从而影响视觉-运动控制。
通过 HG-DAgger 引入共享自治，在部署期间让人类介入以纠正错误并提供纠正。
利用辅助的语言回归损失，将视频嵌入与语言嵌入对齐（z_h 与 z_ℓ 的余弦相似度）。

实验结果

研究问题

RQ1BC-Z 能否对通过语言或人类视频描述的新任务实现零-shot 泛化？
RQ2泛化性能是否被任务嵌入还是策略本身（编码器 vs. 控制器）所瓶颈？
RQ3HG-DAgger 数据收集和自适应状态差目标在学习中的重要性如何？
RQ4使用语言与视频任务条件对零-shot和少-shot泛化的影响是什么？

主要发现

在 100 个任务上的训练使对未见任务的泛化成为可能，若以训练中未见的语言描述为条件，平均成功率为 44%。
基于语言条件的策略在保留集任务上达到非零成功（零-shot 平均 32%；在若干包含未见语言的保留任务上达到 44%），而基于视频条件的策略显示出更受限的泛化，尤其是在跨对象泛化时。
用有限数据训练的单任务策略在保留任务上失败，而数据合并的多任务训练对于学习提升的性能至关重要。
相比纯专家演示，在多个训练任务中，HG-DAgger 数据收集提高了任务成功率。
语言嵌入提供了强大、稳定的任务条件信号，无需额外训练，干预频率与策略性能相关，为评估提供了一个实时代理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。