[논문 리뷰] TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation
TiPToP는 사전 학습된 비전-언어 기초 모델을 GPU-가속 TAMP와 결합하여 로봇 데이터 없이 RGB 이미지와 자연어로부터 개방 어휘의 로봇 조작 작업을 직접 계획하며, 교차 구현에 대한 오픈 소스 구현이다.
We present TiPToP, an extensible modular system that combines pretrained vision foundation models with an existing Task and Motion Planner (TAMP) to solve multi-step manipulation tasks directly from input RGB images and natural-language instructions. Our system aims to be simple and easy-to-use: it can be installed and run on a standard DROID setup in under one hour and adapted to new embodiments with minimal effort. We evaluate TiPToP -- which requires zero robot data -- over 28 tabletop manipulation tasks in simulation and the real world and find it matches or outperforms $π_{0.5} ext{-DROID}$, a vision-language-action (VLA) model fine-tuned on 350 hours of embodiment-specific demonstrations. TiPToP's modular architecture enables us to analyze the system's failure modes at the component level. We analyze results from an evaluation of 173 trials and identify directions for improvement. We release TiPToP open-source to further research on modular manipulation systems and tighter integration between learning and planning. Project website and code: https://tiptop-robot.github.io
연구 동기 및 목표
- 특정 작업 데이터 수집 없이도 구현체 간에 작동하는 일반적이고 즉시 사용할 수 있는 조작 시스템을 제안한다.
- 3D 장면에서 객체 및 관계에 기반한 지시를 개방 어휘로 연결한다.
- 이산적인 작업 구조와 연속적 운동 계획을 함께 추론하여 기하학적 및 기호적 제약을 만족한다.
- 최소한의 설정 및 보정으로 여러 로봇 구현에서 배치 가능하도록 한다.
제안 방법
- 세 모듈 아키텍처: 인식은 객체 중심의 3D 장면과 객체별 메시 및 후보 그립을 구성; 계획은 cuTAMP를 사용하여 플랜 스켈터슨을 검색하고 연속 매개변수를 최적화하며; 실행은 임피던스 컨트롤러로 계획된 궤적을 따릅니다.
- Foundation-모델 인식: 깊이를 위한 FoundationStereo, 6-DoF 그립을 위한 M2T2, 분할을 위한 SAM-2, 객체 라벨링 및 기호적 목표 접지를 위한 Gemini VLM.
- Plan-grounding: cuTAMP가 PDDL-스타일 스켈턴을 열거하고 연속 매개변수에 대한 파티클을 초기화하며, 파티클에 대한 미분 가능한 최적화를 통해 제약을 만족한 뒤 GPU-가속 cuRobo로 궤적 생성을 수행한다.
- 단일 시점 실행: 실행 중 온라인 재계획이나 시각 피드백 없이 루프 없는 실행.
- 확장성: 모듈식 설계로 새로운 술어, 작업(예: 새로운 원시로 닦기)을 추가하고 새로운 구현에 가벼운 통합 단계로 적응할 수 있다.
실험 결과
연구 질문
- RQ1TiPToP가 개방형 조작 작업에서 최첨단 비전-언어-행동 모델과 일치하거나 이를 능가할 수 있는가?
- RQ2TiPToP의 작업 성공률과 속도가 구현 시범에 대해 미세 조정된 VL-A 모델과 비교하여 어떠한가?
- RQ3모듈식 계획 기반 접근의 주요 실패 모드는 무엇이며 이를 어떻게 완화할 수 있는가?
- RQ4특정 로봇 학습 없이도 로봇 구현 간 및 작업 간 일반화가 얼마나 잘 이루어지는가?
주요 결과
- TiPToP는 π0.5-DROID에 비해 28개 평가 장면에서 동등하거나 더 높은 성공률을 달성하며 의미적 및 다단계 작업에서 이점이 있다.
- 오픈 루프 계획은 실행 시간을 더 빠르게 만들어 단일 최적 궤적을 계획하고 바로 실행하는 경우가 많다.
- TiPToP는 대규모 VLM에서의 접지를 더 잘 활용하여 작업 관련 객체와 관계를 식별하고, 방해 요소가 많고 의미적으로 복잡한 작업에서 성능을 향상시킨다.
- 일반적인 실패 모드는 그립 실패, 볼록 껍질 메시로 인한 장면 완성 오류, VLM 탐지 오류, cuTAMP 계획 실패이며, 이는 특정 개선 방향을 제시한다.
- UR5e 및 WidowX 팔에 대한 모듈형 배포가 교차 구현 일반화를 모듈 설정 노력을 통해 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.