Skip to main content
QUICK REVIEW

[论文解读] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping

Adam Rashid, Satvik Sharma|arXiv (Cornell University)|Sep 14, 2023
Robot Manipulation and Learning被引用 13
一句话总结

LERF-TOGO 使用零-shot 视觉-语言模型与语言嵌入辐射场输出面向任务的对象部件语义抓取分布,允许指定部位的抓取而无需任务特定训练。

ABSTRACT

Grasping objects by a specific part is often crucial for safety and for executing downstream tasks. Yet, learning-based grasp planners lack this behavior unless they are trained on specific object part data, making it a significant challenge to scale object diversity. Instead, we propose LERF-TOGO, Language Embedded Radiance Fields for Task-Oriented Grasping of Objects, which uses vision-language models zero-shot to output a grasp distribution over an object given a natural language query. To accomplish this, we first reconstruct a LERF of the scene, which distills CLIP embeddings into a multi-scale 3D language field queryable with text. However, LERF has no sense of objectness, meaning its relevancy outputs often return incomplete activations over an object which are insufficient for subsequent part queries. LERF-TOGO mitigates this lack of spatial grouping by extracting a 3D object mask via DINO features and then conditionally querying LERF on this mask to obtain a semantic distribution over the object with which to rank grasps from an off-the-shelf grasp planner. We evaluate LERF-TOGO's ability to grasp task-oriented object parts on 31 different physical objects, and find it selects grasps on the correct part in 81% of all trials and grasps successfully in 69%. See the project website at: lerftogo.github.io

研究动机与目标

  • 使用自然语言在没有对象部件训练数据的情况下实现按对象部件的任务导向抓取。
  • 利用 LERF 产生场景中对象和部件的三维相关性映射。
  • 通过 3D DINO 特征改进对象掩模以实现空间分组的部件查询。
  • 结合语义相关性和几何置信度对 GraspNet 的抓取进行排序。
  • 在真实机器人实验中展示对各种家居对象的鲁棒性。

提出的方法

  • 用 LERF 重建场景以获得三维语言相关性场。
  • 在自上而下的 LERF 渲染中通过洪水填充提取三维对象掩模。
  • 通过对对象掩模使用部件查询在 LERF 上进行条件化的三维部件相关性映射。
  • 从一半球虚拟相机采样抓取并用语义+几何分数重新排序。
  • 将 s_sem(抓取内在中位相关性)和 s_geom(GraspNet 得分)结合为 s = 0.95 s_sem + 0.05 s_geom。
  • 使用腕戴相机构建场景 NeRF-like 表征并在物理机器人上进行端到端验证。

实验结果

研究问题

  • RQ1零-shot 视觉-语言模型是否能够在不进行部件特定训练的情况下实现对抓取的准确对象和部件定位?
  • RQ2在学习场景表示中对条件进行三维查询是否比非条件查询更能改进部件特定的抓取定位?
  • RQ3将语义相关性与几何抓取质量结合对面向任务的抓取成功有何影响?
  • RQ4自然语言的长尾对象-部件查询在多大程度上可扩展?
  • RQ5系统是否能与大型语言模型(LLMs)集成,为任务生成对象-部件提示?

主要发现

方法正确对象正确部位成功提起
ConceptFusion [70]77%39%
LERF-TOGO96%82%69%
  • 该方法在抓取中的对象选择正确率达到 96%。
  • 82% 的抓取落在正确的对象部位。
  • 69% 的生成抓取能够成功提起。
  • 对象掩模上纯几何抓取仅在 18% 的情况下落在正确部位,表明来自 LERF-TOGO 的语义偏置提升了部位定位。
  • LERF-TOGO 通过利用多尺度语义查询和三维对象掩模,在面向任务的抓取方面优于若干基线方法。
  • 在某些实验中,LLM 辅助提示能够产生正确的对象-部位提示,从而实现任务驱动的抓取规划。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。