Skip to main content
QUICK REVIEW

[论文解读] $π_0$: A Vision-Language-Action Flow Model for General Robot Control

Kevin Black, Noah Brown|arXiv (Cornell University)|Oct 31, 2024
Robotic Path Planning Algorithms被引用 7
一句话总结

π0 是一个通用机器人策略,将视觉-语言模型与流式匹配动作生成融合,在多种机器人上训练,以实现零样本和微调的灵巧任务。

ABSTRACT

Robot learning holds tremendous promise to unlock the full potential of flexible, general, and dexterous robot systems, as well as to address some of the deepest questions in artificial intelligence. However, bringing robot learning to the level of generality required for effective real-world systems faces major obstacles in terms of data, generalization, and robustness. In this paper, we discuss how generalist robot policies (i.e., robot foundation models) can address these challenges, and how we can design effective generalist robot policies for complex and highly dexterous tasks. We propose a novel flow matching architecture built on top of a pre-trained vision-language model (VLM) to inherit Internet-scale semantic knowledge. We then discuss how this model can be trained on a large and diverse dataset from multiple dexterous robot platforms, including single-arm robots, dual-arm robots, and mobile manipulators. We evaluate our model in terms of its ability to perform tasks in zero shot after pre-training, follow language instructions from people and from a high-level VLM policy, and its ability to acquire new skills via fine-tuning. Our results cover a wide variety of tasks, such as laundry folding, table cleaning, and assembling boxes.

研究动机与目标

  • 通过构建一个通用机器人策略(机器人基础模型)来应对机器人学习中的数据、泛化和鲁棒性挑战。
  • 通过一个预训练的视觉-语言模型继承互联网上规模级别的语义知识,并用流式匹配动作输出扩展以实现灵巧控制。
  • 实现跨具体现数据的跨具身训练,涵盖七种机器人配置和68个任务,然后评估零样本、语言条件控制和下游任务的微调。

提出的方法

  • 使用预训练的视觉-语言模型骨干(PaliGemma),并为机器人特定输入/输出添加专门的动作专家。
  • 用条件流式匹配建模连续动作分布,以实现高频控制(最高可达50 Hz)。
  • 使用预训练数据混合(机器人操控数据加开源数据)进行训练,并在后期进行任务特定的高质量数据微调。
  • 采用跨具身训练,将来自不同机器人配置的数据聚合到一个模型中。
  • 将语言指令和本体感受状态与视觉输入整合,实现语言条件和高级策略辅助的控制。
  • 可选地使用高层次语义策略将复杂任务分解为中间的语言引导步骤。

实验结果

研究问题

  • RQ1预训练后的π0模型在零样本下执行多种任务的能力如何?
  • RQ2π0在直接语言输入以及高层策略或专家指令的条件下,在多大程度上遵循语言命令?
  • RQ3π0在下游任务上与先前的最先进方法在灵巧操作方面相比如何?
  • RQ4是否可以通过微调或高层策略的引导有效地将π0适配到复杂的多阶段任务?

主要发现

  • π0在衬衫折叠、餐具清理/送餐、 groceries bagging、以及 toaster 任务方面的零样本表现优于如 OpenVLA 和 Octo 等基线。
  • 一个较少步骤(160k)训练的对等版本仍然优于基线,而 π0-small 变体的表现不及 OpenVLA 和 Octo,这凸显了 VLM 初始化的好处。
  • 模型的流式匹配动作生成使其在多种机器人具身上实现高频、灵巧控制(最高50 Hz)。
  • 在多样化的机器人数据(超过10,000小时)进行预训练,并结合针对任务的后训练,提升了对如 laundry folding 这类长时、复杂任务的稳健下游性能。
  • 跨具身训练使单一模型能够控制七种机器人配置,从而在不同形态上实现泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。