[論文レビュー] SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning
SayPlan は、大規模な3Dシーングラフをセマンティックなサブグラフ検索で基盤に据え、ナビゲーション用のパスプランナーとシーングラフシミュレータによる反復リプランニングを組み合わせて、複数階環境で実行可能なプランを確保することで、LLMベースのロボットタスク計画を grounding する。
Large language models (LLMs) have demonstrated impressive results in developing generalist planning agents for diverse tasks. However, grounding these plans in expansive, multi-floor, and multi-room environments presents a significant challenge for robotics. We introduce SayPlan, a scalable approach to LLM-based, large-scale task planning for robotics using 3D scene graph (3DSG) representations. To ensure the scalability of our approach, we: (1) exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a 'semantic search' for task-relevant subgraphs from a smaller, collapsed representation of the full graph; (2) reduce the planning horizon for the LLM by integrating a classical path planner and (3) introduce an 'iterative replanning' pipeline that refines the initial plan using feedback from a scene graph simulator, correcting infeasible actions and avoiding planning failures. We evaluate our approach on two large-scale environments spanning up to 3 floors and 36 rooms with 140 assets and objects and show that our approach is capable of grounding large-scale, long-horizon task plans from abstract, and natural language instruction for a mobile manipulator robot to execute. We provide real robot video demonstrations on our project page https://sayplan.github.io.
研究の動機と目的
- 大規模で複数の部屋・階層を含む環境で、長期的なLLM計画を現実の環境に基づける課題に対処する。
- 階層的な3D Scene Graphs (3DSGs) を活用し、タスクに関連するサブグラフをセマンティック検索できるようにする。
- 経路計画をクラシカルなプランナーに委譲することで、LLMの計画範囲を縮小する。
- シーングラフシミュレータを用いた反復的リプランニングループを導入し、計画の実行可能性を保証する。
提案手法
- 環境を階層的な3D Scene Graphs (3DSGs)として表現し、LLM入力用にJSONとして直列化する。
- 3DSGを高レベルのビューに畳み込み(縮約)し、LLMガイドの expand/contract 操作によるセマンティック検索を実行して、タスクに関連するサブグラフ G′ を特定する。
- 高レベルのウェイポイントを結ぶために古典的なパスプランナー(例:Dijkstra)を使用し、LLMのナビゲーション負担を短縮する。
- シーングラフシミュレータからのフィードバックを用いて計画を反復的に改良し、実行可能性が得られるまで、実行不可能なアクションや述語を修正する。
実験結果
リサーチクエスチョン
- RQ1LLMは、与えられた指示に関連するサブグラフを識別するために、大規模な3DSGを効果的に検索・推論できるか。
- RQ2古典的なパスプランナーと反復的なシミュレータフィードバックを統合することで、複数階環境のモバイルマニピュレータに対して実行可能な計画を生成できるか。
- RQ3セマンティックグラフの畳み込みがLLMのトークン効率と計画のスケーラビリティに与える影響は何か。
- RQ4大規模環境におけるLLM生成計画の失敗モードは何か、そして反復的リプランニングはそれをどう緩和できるか。
主な発見
- SayPlanパイプラインは、最大3階、36室の環境に跨る、スケーラブルで現実的なタスク計画を可能にする。
- 畳み込まれた3DSGに対するセマンティック検索は、大規模環境で最大約82%程度のトークン負荷を削減し、LLMのパーシングを可能にする。
- シーングラフシミュレータを用いた反復リプランニングは、実行不可能なアクションを修正し、環境述語を遵守することで、実行可能に近い計画を実現する。
- SayPlanは、モバイルマニピュレータを用いた実機デモで高い実行可能性と実現性を示す。
- ベースラインと比較して、SayPlanはサブグラフ検索、パスプランニング、フィードバックループの組み合わせにより、ハルシネーションや移動/操作の誤りを緩和する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。