[论文解读] VIMA: General Robot Manipulation with Multimodal Prompts
VIMA 引入多模态提示以统一多样化的机器人操控任务,推出 VIMA-Bench 基准,并训练一个基于 transformer 的智能体,在对象中心表示下实现强大的零样本泛化。
Prompt-based learning has emerged as a successful paradigm in natural language processing, where a single general-purpose language model can be instructed to perform any task specified by input prompts. Yet task specification in robotics comes in various forms, such as imitating one-shot demonstrations, following language instructions, and reaching visual goals. They are often considered different tasks and tackled by specialized models. We show that a wide spectrum of robot manipulation tasks can be expressed with multimodal prompts, interleaving textual and visual tokens. Accordingly, we develop a new simulation benchmark that consists of thousands of procedurally-generated tabletop tasks with multimodal prompts, 600K+ expert trajectories for imitation learning, and a four-level evaluation protocol for systematic generalization. We design a transformer-based robot agent, VIMA, that processes these prompts and outputs motor actions autoregressively. VIMA features a recipe that achieves strong model scalability and data efficiency. It outperforms alternative designs in the hardest zero-shot generalization setting by up to $2.9 imes$ task success rate given the same training data. With $10 imes$ less training data, VIMA still performs $2.7 imes$ better than the best competing variant. Code and video demos are available at https://vimalabs.github.io/
研究动机与目标
- 将广泛的机器人操作任务表述为交错文本与图像的多模态提示。
- 创建 VIMA-Bench,一个大规模、流程生成的基准,用于评估可扩展性与泛化能力。
- 开发 VIMA,一个基于 transformer 的具身智能体,处理多模态提示并自回归地产出运动动作。
- 展示在不同模型大小和训练数据规模下的可扩展性与数据效率。
提出的方法
- 将多模态提示定义为文本和图像标记的交错序列。
- 使用面向对象的视觉分词器(Mask R-CNN)将图像转换为对象标记序列。
- 采用一个编码器-解码器 Transformer,其中解码器通过交叉注意力对提示进行条件化,并自回归地产出运动动作。
- 通过离线行为克隆训练,在给定提示和历史的情况下最大化专家动作的似然性。
- 使用四级 VIMA-Bench 协议进行评估,以评估逐步增强的零样本泛化。
实验结果
研究问题
- RQ1单个模型能否学习由多模态提示指定的多项操控任务?
- RQ2模型容量与训练数据规模如何影响多模态机器人学习中的零样本泛化?
- RQ3可视化标记化和提示条件化对策略性能有何影响?
- RQ4该方法对干扰项和损坏的提示有多鲁棒?
主要发现
- VIMA 在所有零样本泛化水平和模型规模上均优于基线设计。
- 在最难的设定下,VIMA 给定相同训练数据时,任务成功率最高可提高至 2.9 倍。
- 在训练数据量少 10 倍的情况下,VIMA 仍显著优于其他变体(在某些情况下达到 2.7 倍)。
- 面向对象的标记在效果上优于处理原始像素或下采样标记的方法。
- 将解码器通过交叉注意力对提示进行条件化能带来显著提升,尤其在较小的模型中,对泛化至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。