[논문 리뷰] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
LERF-TOGO는 Language Embedded Radiance Fields를 활용한 제로샷 시각-언어 모델로 작업 지향 물체 부품에 대한 의미론적 파지 분포를 출력하여, 특정 부품에 의한 파지를 가능하게 하고 작업 특화 학습 없이도 수행합니다.
Grasping objects by a specific part is often crucial for safety and for executing downstream tasks. Yet, learning-based grasp planners lack this behavior unless they are trained on specific object part data, making it a significant challenge to scale object diversity. Instead, we propose LERF-TOGO, Language Embedded Radiance Fields for Task-Oriented Grasping of Objects, which uses vision-language models zero-shot to output a grasp distribution over an object given a natural language query. To accomplish this, we first reconstruct a LERF of the scene, which distills CLIP embeddings into a multi-scale 3D language field queryable with text. However, LERF has no sense of objectness, meaning its relevancy outputs often return incomplete activations over an object which are insufficient for subsequent part queries. LERF-TOGO mitigates this lack of spatial grouping by extracting a 3D object mask via DINO features and then conditionally querying LERF on this mask to obtain a semantic distribution over the object with which to rank grasps from an off-the-shelf grasp planner. We evaluate LERF-TOGO's ability to grasp task-oriented object parts on 31 different physical objects, and find it selects grasps on the correct part in 81% of all trials and grasps successfully in 69%. See the project website at: lerftogo.github.io
연구 동기 및 목표
- 자연어를 사용해 물체-부품 학습 데이터 없이도 부품별 작업 지향 파지를 가능하게 한다.
- LERF를 활용해 장면의 물체와 부품에 대한 3D 관련성 맵을 생성한다.
- 3D DINO 기능으로 물체 마스크의 객체를 개선해 공간적으로 그룹화된 부품 질의를 가능하게 한다.
- 의미론적 관련성과 기하학적 신뢰도의 조합으로 GraspNet의 파지를 랭크한다.
- 현실 로봇 실험에서 다양한 가정용 물체에 대한 견고성을 시연한다.
제안 방법
- LERF로 장면을 재구성해 3D 언어-관련성 필드를 얻는다.
- 상하방향 LERF 렌더링 내에서 DINO 임베딩을 flood-fill로 수집해 3D 객체 마스크를 추출한다.
- 객체 마스크에서 부품 질의를 이용해 LERF에 질의해 조건부 3D 부품 관련성 맵을 계산한다.
- 가상의 카메라 반구에서 GraspNet으로 파지를 샘플하고 의미론적+기하학적 점수로 재랭크 한다.
- s_sem(파지 내 중앙값 관련성)과 s_geom(GraspNet 점수)을 결합해 s = 0.95 s_sem + 0.05 s_geom으로 합친다.
- 손목에 부착된 카메라를 사용해 현장 NeRF 유사 표현을 구축하고 물리 로봇에서 엔드-투-엔드 검증을 수행한다.
실험 결과
연구 질문
- RQ1제로샷 비전-언어 모델이 부품별 학습 없이 파지를 위한 물체 및 부품 위치를 정확히 식별할 수 있는가?
- RQ2학습된 장면 표현에서 조건부 3D 질의가 비조건 질의에 비해 부품별 파지 위치를 개선하는가?
- RQ3의미론적 관련성과 기하학적 파지 품질의 결합이 작업 지향 파지 성공에 어떤 영향을 미치는가?
- RQ4자연어를 사용한 긴 tail 물체-부품 질의에 이 접근법이 얼마나 확장 가능한가?
- RQ5시스템이 대형 언어 모델(LLM)과 통합되어 작업에 맞는 물체-부품 프롬프트를 생성할 수 있는가?
주요 결과
| Method | Correct Object | Correct Part | Successful Lifted |
|---|---|---|---|
| ConceptFusion [70] | 77% | 39% | – |
| LERF-TOGO | 96% | 82% | 69% |
- 본 방법은 파지에서 올바른 물체 선택율이 96%이다.
- 파지의 82%가 올바른 물체 부위에 도달한다.
- 생성된 파지의 69%가 성공적으로 물체를 들어올린다.
- 순수 기하학적 마스크의 최고 파지에서 부품에 정확히 도달하는 경우는 18%에 불과하며, LERF-TOGO의 의미론적 편향이 부품 targeting을 개선한다는 것을 보여준다.
- LERF-TOGO는 다중 규모의 의미론적 질의와 3D 물체 마스크를 활용해 작업 지향 파지에서 여러 기준선보다 우수하다.
- LLM 보조 프롬프팅은 높은 신뢰도로 올바른 물체-부품 프롬프트를 생성해 일부 실험에서 작업 주도적 파지 계획을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.