[论文解读] RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation
RoboCat 是一个多化身、多任务的基于视觉的通用代理,使用自我改进的训练循环,通过带视觉目标条件的 Transformer 模型来适应新的机器人任务和化身。
The ability to leverage heterogeneous robotic experience from different robots and tasks to quickly master novel skills and embodiments has the potential to transform robot learning. Inspired by recent advances in foundation models for vision and language, we propose a multi-embodiment, multi-task generalist agent for robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned decision transformer capable of consuming action-labelled visual experience. This data spans a large repertoire of motor control skills from simulated and real robotic arms with varying sets of observations and actions. With RoboCat, we demonstrate the ability to generalise to new tasks and robots, both zero-shot as well as through adaptation using only 100-1000 examples for the target task. We also show how a trained model itself can be used to generate data for subsequent training iterations, thus providing a basic building block for an autonomous improvement loop. We investigate the agent's capabilities, with large-scale evaluations both in simulation and on three different real robot embodiments. We find that as we grow and diversify its training data, RoboCat not only shows signs of cross-task transfer, but also becomes more efficient at adapting to new tasks.
研究动机与目标
- 提出需要一个利用异质机器人经验的通用机器人操作代理的动机。
- 提出 RoboCat,一个具视觉目标条件的 Transformer,能够处理多样的化身和任务。
- 展示在新任务上对 100–1000 次演示进行微调并进行自主数据收集以实现自我提升。
- 展示跨任务迁移,在更大、更多样化的数据下提高效率,以及具备自我生成数据以持续学习的能力。
提出的方法
- 模型架构:一个大型自回归 Transformer(仅解码器,约 1.18B 参数),使用冻结的 VQ-GAN 图像编码器对视觉观测进行标记。
- 通过视觉目标进行任务规范;目标在一个轨迹中重复出现,并且可以使用事后目标进行重标签。
- 训练目标将动作标记预测和未来图像标记预测结合起来,以利用 VQ-GAN 编码器中的图像标记。
- 数据整合:RoboCat 在跨多个化身、任务和对象集的多样化数据集上进行训练,任务变体编码为标记序列。
- 微调与自我提升:对新任务进行 100–1000 次演示的微调,部署以收集自我导向的 on-policy 数据,使用事后目标重标签,并重新训练下一个通用代理版本。
- 真实世界部署:通过策略池实现的成功检测奖励模型和自主重置,以在跨任务上实现可扩展的数据收集。

实验结果
研究问题
- RQ1RoboCat 是否能从异质的多化身数据中学习,以解决广泛的灵巧操控任务?
- RQ2RoboCat 在只有少量演示的情况下,对未见过的任务、物体和化身的适应能力如何?
- RQ3RoboCat 是否表现出跨任务迁移,并在更大、更多样化的训练数据下得到提升?
- RQ4RoboCat 是否能够通过自主收集数据并将其整合到后续训练迭代中来实现自我提升?
主要发现
- 单一的 RoboCat 代理可以在多个化身和对象集上执行 253 个训练和微调任务变体。
- RoboCat 能以 100–1000 次演示对未见任务进行微调,并能够适应在初始训练中未见的 14-DoF KUKA 化身。
- 通过自主数据收集和重标签实现的自我提升,在通用能力和微调效率上产生迭代性提升。
- 相比在非机器人数据上训练的视觉基础模型基线,RoboCat 在训练任务上取得更高的性能,在微调任务上的适应性也更强。
- 扩大多样化的机器人数据规模提高了训练任务的性能,并加速对新任务的适应。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。