[论文解读] Grounding Language in Play.
本文提出了一种可扩展的方法,通过在事后将自监督机器人游戏经验与人类语言配对,利用多情境模仿训练单一智能体,使其在测试时能够遵循自然语言目标。该方法将语言配对成本降低至经验总量的1%以下,并实现了在16种语言中对数千条新指令的零样本泛化。
Natural language is perhaps the most versatile and intuitive way for humans to communicate tasks to a robot. Prior work on Learning from Play (LfP) [Lynch et al, 2019] provides a simple approach for learning a wide variety of robotic behaviors from general sensors. However, each task must be specified with a goal image---something that is not practical in open-world environments. In this work we present a simple and scalable way to condition policies on human language instead. We extend LfP by pairing short robot experiences from play with relevant human language after-the-fact. To make this efficient, we introduce multicontext imitation, which allows us to train a single agent to follow image or language goals, then use just language conditioning at test time. This reduces the cost of language pairing to less than 1% of collected robot experience, with the majority of control still learned via self-supervised imitation. At test time, a single agent trained in this manner can perform many different robotic manipulation skills in a row in a 3D environment, directly from images, and specified only with natural language (e.g. open the drawer...now pick up the block...now press the green button...). Finally, we introduce a simple technique that transfers knowledge from large unlabeled text corpora to robotic learning. We find that transfer significantly improves downstream robotic manipulation. It also allows our agent to follow thousands of novel instructions at test time in zero shot, in 16 different languages. See videos of our experiments at this http URL
研究动机与目标
- 解决在开放世界机器人操作中为每个任务都需目标图像的不切实际问题。
- 使机器人能够从自监督游戏中学习多样化的操作技能,而无需人类标注的目标。
- 通过利用事后将语言与机器人经验配对,降低语言标注成本。
- 通过利用大规模语料库的迁移,实现在多种语言中新指令的零样本泛化。
- 训练单一智能体,使其能够在3D环境中执行序列性、语言条件化的任务。
提出的方法
- 在无结构游戏中使用通用传感器收集机器人经验,无需显式的目标监督。
- 事后将简短的机器人轨迹与相关的人类语言描述配对,以创建语言条件化数据集。
- 使用多情境模仿训练单一策略,使其在训练期间能够同时遵循图像和语言目标。
- 从大规模未标注语料库中进行迁移学习,以提升机器人策略的语言理解能力。
- 在测试时,仅将同一策略基于自然语言指令进行条件化,以执行复杂且序列化的任务。
- 利用预训练的语言表征,实现对16种语言中未见指令的零样本泛化。
实验结果
研究问题
- RQ1是否可以在不依赖目标图像的情况下,有效将语言与自监督机器人游戏对齐?
- RQ2是否可以使用多情境模仿训练单一策略,使其在图像和语言目标之间实现泛化?
- RQ3通过事后标注,语言配对成本能降低多少?
- RQ4从大规模语料库中迁移是否能提升对新指令的零样本泛化能力?
- RQ5模型是否能在测试时执行数千条在训练中未见过的、跨16种语言的新指令?
主要发现
- 语言配对成本降低至总机器人经验的1%以下,显著减轻了标注负担。
- 该模型在测试时实现了对数千条新指令的零样本泛化,即使在训练期间未见过这些指令。
- 从大规模未标注语料库中迁移学习可提升下游机器人操作性能。
- 同一策略可直接从自然语言中执行序列化操作任务,例如“打开抽屉……现在拿起积木……现在按下绿色按钮”。
- 该方法在零样本设置下实现了对16种不同语言的稳健语言泛化。
- 该方法在仅使用自监督和弱监督语言配对的情况下,仍能在3D环境中保持高性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。