[论文解读] GenSim: Generating Robotic Simulation Tasks via Large Language Models
GenSim 使用 GPT-4 和其他大型语言模型自动生成多样化的机器人仿真任务和演示,从而实现多任务策略训练,提升任务级泛化和仿真到现实的转移。
Collecting large amounts of real-world interaction data to train general robotic policies is often prohibitively expensive, thus motivating the use of simulation data. However, existing methods for data generation have generally focused on scene-level diversity (e.g., object instances and poses) rather than task-level diversity, due to the human effort required to come up with and verify novel tasks. This has made it challenging for policies trained on simulation data to demonstrate significant task-level generalization. In this paper, we propose to automatically generate rich simulation environments and expert demonstrations by exploiting a large language models' (LLM) grounding and coding ability. Our approach, dubbed GenSim, has two modes: goal-directed generation, wherein a target task is given to the LLM and the LLM proposes a task curriculum to solve the target task, and exploratory generation, wherein the LLM bootstraps from previous tasks and iteratively proposes novel tasks that would be helpful in solving more complex tasks. We use GPT4 to expand the existing benchmark by ten times to over 100 tasks, on which we conduct supervised finetuning and evaluate several LLMs including finetuned GPTs and Code Llama on code generation for robotic simulation tasks. Furthermore, we observe that LLMs-generated simulation programs can enhance task-level generalization significantly when used for multitask policy training. We further find that with minimal sim-to-real adaptation, the multitask policies pretrained on GPT4-generated simulation tasks exhibit stronger transfer to unseen long-horizon tasks in the real world and outperform baselines by 25%. See the project website (https://liruiw.github.io/gensim) for code, demos, and videos.
研究动机与目标
- 通过利用 LLMs 创建多样且可实现的仿真任务,降低人工任务设计工作量的动机。
- 开发两模任务生成管线(目标导向与探索性),以扩展任务多样性。
- 创建一个任务库,用于缓存和重复使用高质量任务以用于验证和微调。
- 在 LLM 生成的任务上训练带语言条件的多任务策略,以提高任务层面的泛化。
- 评估 LLMs(GPT-4,GPT-3.5,Code Llama)在机器人仿真场景中的代码生成,并分析仿真到现实的转移。
提出的方法
- 提出一个输出任务描述及相应代码用于场景和演示生成的两模任务创建器。
- 使用任务库实现检索增强生成,并存储验证通过的任务以供将来使用。
- 应用带有 LLM 评审的反思与验证循环,在将任务加入库之前评估任务质量。
- 使用任务库中的任务生成的演示来训练带语言条件的多任务策略。
- 在多种 LLM 及微调变体上评估任务生成质量和策略在仿真与真实世界转移中的泛化。
实验结果
研究问题
- RQ1LLMs 能否设计并实现多样化、高质量的机器人仿真任务和演示?
- RQ2在 LLM 生成的任务上训练是否比仅使用人类 curated 任务能提高策略的任务层面泛化?
- RQ3在多样化的 LLM 生成仿真上预训练是否能提升长时程任务的仿真到现实转移?
- RQ4目标导向与探索性生成模式在为策略学习提供有用的任务课程方面有何差异?
主要发现
- LLMs,尤其是 GPT-4,能够通过从现有任务引导,生成高质量、可实现且多样化的仿真任务。
- 使用 GenSim 任务数据对开源 LLM 进行微调可提升生成性能;基于 GPT-4 的任务在领域内及零样本泛化方面有提升。
- 在 GPT-4 生成的任务上训练的多任务策略在领域内泛化方面提升超过 50%,在仿真中实现显著的零-shot 转移。
- 在极少的仿真到现实适配下,以 GPT-4 任务预训练的策略对未见真实世界任务的转移能力更强,性能相对基线提升约 25%。
- 在更大规模的生成任务(例如 70 个任务)上进行预训练,在现实世界的长时程任务(如 build-wheel)上表现出显著的鲁棒性。
- 在仿真训练中实现的任务多样性通过适配后,显著提升现实世界的适应性,约提升 25%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。