[论文解读] Scaling Single Human Demonstrations for Imitation Learning using Generative Foundational Models
引入 Real2Gen,这是一种 Reality-to-Simulation 方法,通过 3D 生成模型将单个人体演示转化为可扩展的仿真管线,显著高于 DITTO 基线的成功率并实现零-shot 现实世界转移。
Imitation learning is a popular paradigm to teach robots new tasks, but collecting robot demonstrations through teleoperation or kinesthetic teaching is tedious and time-consuming. In contrast, directly demonstrating a task using our human embodiment is much easier and data is available in abundance, yet transfer to the robot can be non-trivial. In this work, we propose Real2Gen to train a manipulation policy from a single human demonstration. Real2Gen extracts required information from the demonstration and transfers it to a simulation environment, where a programmable expert agent can demonstrate the task arbitrarily many times, generating an unlimited amount of data to train a flow matching policy. We evaluate Real2Gen on human demonstrations from three different real-world tasks and compare it to a recent baseline. Real2Gen shows an average increase in the success rate of 26.6% and better generalization of the trained policy due to the abundance and diversity of training data. We further deploy our purely simulation-trained policy zero-shot in the real world. We make the data, code, and trained models publicly available at real2gen.cs.uni-freiburg.de.
研究动机与目标
- 通过利用丰富的人类演示来降低模仿学习中的数据采集成本。
- 提出一个 Real2Gen 管线,将一个人类演示转化为可扩展的仿真数据集。
- 利用流匹配方法从生成的机器人演示中进行策略学习。
提出的方法
- 从单个人体演示中使用 DITTO 或类似方法提取面向对象的信息。
- 使用生成模型(Point-E)生成3D对象资源,并通过 Zero-Shot-Pose 将它们对齐到人体演示以恢复尺度和姿态。
- 使用生成的网格创建仿真环境(SAPIEN),通过脚本化的专家代理生成大规模机器人演示数据集。
- 对当前观测进行条件化的流匹配策略(PointFlowMatch)训练,以模仿专家动作。
- 评估对未见现实世界对象实例的转移,并对学习到的策略进行零-shot 现实世界部署。
实验结果
研究问题
- RQ1一个人类演示是否可转化为适合训练机器人且可扩展的仿真数据集?
- RQ2Real2Gen 在成功率和跨任务泛化方面与现有方法(如 DITTO)相比如何?
- RQ3生成网格和演示数量对策略性能的影响是什么?
- RQ4生成的策略是否能零-shot 转移到真实机器人?
主要发现
- Real2Gen 在三个任务(托盘上的海绵、托盘上的可乐、立起的纸卷)上总体平均成功率高于 DITTO 基线。
- Real2Gen 的平均总体成功率:37.5% vs. 10.9%(DITTO)和 8.2%(DITTO + ZSP)。
- 使用生成资源可提供更多与任务相关的网格选项并提升训练数据多样性。
- 消融实验显示在网格/演示数量达到一定阈值后收益递减,体现数据量与数据质量之间的平衡。
- Real2Gen 使仿真训练策略能够零-shot 转移到真实机器人系统,并在物理任务中取得不平凡的成功。
- 将数据、代码与训练模型公开发布在作者的项目页面。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。