[論文レビュー] TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation
TiPToPは、ロボットデータなしでRGB画像と自然言語から直接オープンボキャブラリの操作タスクを計画するGPU加速のTAMPを、事前学習済みvision-language基盤モデルと統合して提供する。Cross-embodiment利用のためオープンソース。
We present TiPToP, an extensible modular system that combines pretrained vision foundation models with an existing Task and Motion Planner (TAMP) to solve multi-step manipulation tasks directly from input RGB images and natural-language instructions. Our system aims to be simple and easy-to-use: it can be installed and run on a standard DROID setup in under one hour and adapted to new embodiments with minimal effort. We evaluate TiPToP -- which requires zero robot data -- over 28 tabletop manipulation tasks in simulation and the real world and find it matches or outperforms $π_{0.5} ext{-DROID}$, a vision-language-action (VLA) model fine-tuned on 350 hours of embodiment-specific demonstrations. TiPToP's modular architecture enables us to analyze the system's failure modes at the component level. We analyze results from an evaluation of 173 trials and identify directions for improvement. We release TiPToP open-source to further research on modular manipulation systems and tighter integration between learning and planning. Project website and code: https://tiptop-robot.github.io
研究の動機と目的
- Embodimentに依存せず、タスク固有データ収集なしで動作する一般的なアウト・オブ・ザ・ボックス操作システムを提案する。
- 3Dシーンの物体と関係に対するオープンボキャブラリ言語指示を物体に grounding する。
- 離散的なタスク構造と連続的な運動計画を同時に推論し、幾何的および記号的制約を満たす。
- 最小限の設定と校正で複数のロボット embodimentへ展開可能にする。
提案手法
- 3部構成のアーキテクチャ:認識は物体中心の3Dシーンと各物体のメッシュおよび候補把持を生成;計画はcuTAMPを用いてスケルトンを探索し連続パラメータを最適化;実行はインピーダンス制御器で計画軌道に従う。
- Foundation-model認識:DepthのFoundationStereo、6-DoF把持のM2T2、SAM-2によるセグメンテーション、物体ラベルと記号的ゴールの grounding の Gemini VLM。
- Plan-grounding:cuTAMPがPDDL風スケルトンを列挙し、連続パラメータのパーティクルを初期化、パーティクル上で微分可能な最適化を行い制約を満たす。続いてGPU加速の cuRobo で軌道生成。
- 単一視点実行:オンライン再計画や視覚的フィードバックなしのオープンループ実行。
- 拡張性:モジュラーデザインにより新しい述語・タスク(例:新しいプリミティブでの拭き取り)を追加し、新しい embodiment への軽量な統合を可能にする。
実験結果
リサーチクエスチョン
- RQ1TiPToPはオープンエンドな操作タスクで最先端の vision-language-actionモデルと同等以上の性能を発揮できるか。
- RQ2TiPToPのタスク成功率と速度は embodimentデモンストレーションで微調整されたVL-Aモデルと比較してどうか。
- RQ3モジュール化された計画ベースのアプローチの主要な失敗モードは何で、どのように軽減できるか。
- RQ4ロボット特有の訓練なしで、ロボット embodiment とタスクを跨いだ一般化はどの程度可能か。
主な発見
| Table I: Per-scene performance (SR = Success Rate, TP = Task Progress) | ||||
|---|---|---|---|---|
| Simple | 5/10 | 72.5% | 8/10 | 90% |
| Can to mug (sim) | 9/10 | 97.5% | 2/10 | 50% |
| Banana to bin (sim) | 0/10 | 70% | 9/10 | 97.5% |
| Marker to tray | 3/5 | 80% | 5/5 | 100% |
| Crackers to tray | 5/5 | 100% | 3/5 | 60% |
| Overall simple (22/40) | 22/40 | 84.0% | 27/40 | 79.5% |
| Distractor: Meat can to sugar box (sim) | 5/10 | 72.5% | 0/10 | 5% |
| Coffee capsules to plate | 4/5 | 90% | 2/5 | 58% |
| Turkish figs to plate | 3/5 | 64% | 2/5 | 52% |
| Cashews to plate | 0/5 | 16% | 0/5 | 12% |
| Red cubes to plate | 1/5 | 50% | 5/5 | 92% |
| Fish to box | 4/5 | 80% | 0/5 | 10% |
| Crackers to tray (medium) | 5/5 | 100% | 3/5 | 80% |
| PB crackers to tray (hard) | 5/5 | 100% | 0/5 | 20% |
| Distractor total (27/45) | 27/45 | 71.6% | 12/45 | 41.1% |
| Semantic: Toy to matching plate | 4/5 | 90% | 1/5 | 62% |
| Creeper to plate | 3/5 | 70% | 0/5 | 0% |
| Largest toy to plate | 3/5 | 70% | 0/5 | 20% |
| Red A to color pile | 5/5 | 100% | 3/5 | 80% |
| Banana to box | 2/5 | 40% | 0/5 | 30% |
| N block to indicated cup | 3/5 | 80% | 2/5 | 60% |
| Sort blocks by color | 5/5 | 100% | 0/5 | 32% |
| Banana to matching plate | 1/5 | 20% | 4/5 | 90% |
| Multi-step: Color cubes to bowl | 9/10 | 94.6% | 0/10 | 24.2% |
| AirPods to cup | 1/5 | 55% | 3/5 | 75% |
| Pack pods to tray | 4/5 | 80% | 1/5 | 65.7% |
| Pack pods to tray (obs.) | 1/5 | 67% | 0/5 | 64% |
| Aleve bottle to tray (obs.) | 4/5 | 80% | 2/5 | 70% |
| Three marbles to cup (obs.) | 2/5 | 80% | 0/5 | 6.7% |
| Marbles + cable | 2/5 | 70% | 0/5 | 60% |
| Multi-step total (23/40) | 23/40 | 75.2% | 6/40 | 52.2% |
| Overall (165 trials) | 98/165 | 74.6% | 55/165 | 52.4% |
- TiPToPは28シーンの評価でπ0.5-DROIDと比較して同等またはそれ以上の成功率を達成し、意味論的および複数ステップのタスクで優位性を示した。
- オープンループ計画は実行時間を短縮する傾向があり、しばしば単一の最適化された軌道を計画して直接実行する。
- TiPToPは大規模VLMからの grounding をより活用して、タスク関連の物体や関係を特定し、 distractorが多く意味論的に複雑なタスクで性能を向上させる。
- 一般的な失敗モードは把持失敗、凸包メッシュによるシーン完成度のエラー、VLM検出エラー、cuTAMP計画失敗であり、目的別の改善を導く。
- UR5eとWidowXアームへのモジュール型展開は、設定労力を抑えつつ embodimentを跨ぐ一般化を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。