[论文解读] RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation
RoboEXP 引入交互式场景探索,以构建一个动作条件的三维场景图(ACSG),并使用大型多模态模型(LMMs)引导机器人在未知环境中的自主探索以进行机器人操作。
We introduce the novel task of interactive scene exploration, wherein robots autonomously explore environments and produce an action-conditioned scene graph (ACSG) that captures the structure of the underlying environment. The ACSG accounts for both low-level information (geometry and semantics) and high-level information (action-conditioned relationships between different entities) in the scene. To this end, we present the Robotic Exploration (RoboEXP) system, which incorporates the Large Multimodal Model (LMM) and an explicit memory design to enhance our system's capabilities. The robot reasons about what and how to explore an object, accumulating new information through the interaction process and incrementally constructing the ACSG. Leveraging the constructed ACSG, we illustrate the effectiveness and efficiency of our RoboEXP system in facilitating a wide range of real-world manipulation tasks involving rigid, articulated objects, nested objects, and deformable objects.
研究动机与目标
- 定义在场景中编码空间关系和动作相关关系的动作条件三维场景图(ACSG)。
- 开发具备感知、记忆、决策和行动模块的 RoboEXP,使其能够自主探索并构建 ACSG。
- 在记忆引导框架中利用大型多模态模型(LMMs)进行动作提议和验证。
- 在各种真实桌面环境及下游操作任务中展示零-shot 泛化能力。
提出的方法
- 将 ACSG 作为一个有向无环图引入,其中对象节点(语义+几何)和动作节点(类型+原语),以及捕捉对象/对象、对象/动作、动作/对象、以及动作/动作关系的四种边类型。
- 将交互式探索设定为受 POMDP 启发的过程,通过选择动作逐步构建 ACSG,以揭示隐藏对象,受图增长、探索进度和时间的综合奖励引导。
- 实现 RoboEXP,包含四个模块:感知(Grounding-DINO、SAM-HQ、CLIP 特征)、记忆(2D-to-3D 合并、基于体素的高层 ACSG 图)、决策(GPT-4V 作为动作提议者和验证者)、以及行动(如打开/关闭/抓取/移动腕部相机等启发式原语)。
- 利用显式记忆随时间维护和更新 ACSG,包括处理遮挡和动态变化,并采用递归/动作栈策略进行多步推理。
实验结果
研究问题
- RQ1动作条件场景图是否能够捕捉在未见环境中完成操作任务所必需的交互和空间关系?
- RQ2机器人如何自我探索以构建完整的 ACSG 并最小化未探索的空间的效果如何?
- RQ3在涉及刚性、关节、嵌套和可变形物体的下游操作任务中,ACSG 的作用是什么?
- RQ4在基于记忆的机器人探索循环中,LMMs 在动作提议和验证方面的引导效果如何?
- RQ5系统是否在几乎没有事先暴露的真实世界场景中实现泛化(零-shot)?
主要发现
- RoboEXP 在五种任务变体、五项指标(成功、对象恢复、状态恢复、未探索空间、GED)上持续领先于 GPT-4V 基线。
- 该系统在对象恢复和状态恢复方面表现更好,同时显著减少未探索空间,相比基线。
- 记忆引导的 ACSG 通过沿图路径的动作拓扑排序实现对目标的高效检索。
- 动作栈支持递归/多步推理(如套娃)并通过贪婪重置策略维持场景一致性。
- 在真实硬件上对多样对象(刚性、关节、嵌套、可变形)的实验表明零-shot 泛化和鲁棒的交互式探索。
- GED 分数对 RoboEXP 一直低于基线,表示与真实场景图更接近。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。