QUICK REVIEW

[論文レビュー] LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning

Shu Wang, Muzhi Han|arXiv (Cornell University)|Mar 18, 2024

Natural Language Processing Techniques被引用数 8

ひとこと要約

LLM3 は、事前学習済みの LLM を、ドメインに依存しないタスクプランナー、パラメータサンプラー、そして動作失敗推論機として用い、TAMP 問題を解決する。箱詰めのシミュレーションと実機ロボットで実証され、動作失敗推論による効率向上が示された。

ABSTRACT

Conventional Task and Motion Planning (TAMP) approaches rely on manually crafted interfaces connecting symbolic task planning with continuous motion generation. These domain-specific and labor-intensive modules are limited in addressing emerging tasks in real-world settings. Here, we present LLM^3, a novel Large Language Model (LLM)-based TAMP framework featuring a domain-independent interface. Specifically, we leverage the powerful reasoning and planning capabilities of pre-trained LLMs to propose symbolic action sequences and select continuous action parameters for motion planning. Crucially, LLM^3 incorporates motion planning feedback through prompting, allowing the LLM to iteratively refine its proposals by reasoning about motion failure. Consequently, LLM^3 interfaces between task planning and motion planning, alleviating the intricate design process of handling domain-specific messages between them. Through a series of simulations in a box-packing domain, we quantitatively demonstrate the effectiveness of LLM^3 in solving TAMP problems and the efficiency in selecting action parameters. Ablation studies underscore the significant contribution of motion failure reasoning to the success of LLM^3. Furthermore, we conduct qualitative experiments on a physical manipulator, demonstrating the practical applicability of our approach in real-world settings.

研究の動機と目的

事前学習済みの LLM を活用して、ドメイン固有の計画ファイルを用いずに TAMP のシンボリックな行動列を提案する。
LLM を有益なサンプラーとして活用し、連続的な動作パラメータを生成する。
動作計画のフィードバックを取り入れて失敗を推論し、計画を反復的に改良する。
この枠組みの有効性を、シミュレーション（箱詰め）と物理的マニピュレーターで実証する。

提案手法

TAMP を s0、g、trace が与えられたときに LLM がシンボリックな行動と連続的パラメータを出力するシーケンス予測問題として表現する。
LLM が生成した計画を、運動プランナーと遷移関数で反復的に検証して suture states を取得する。
モーションプランニングのフィードバック（衝突、到達不可）を収集し、それを次の反復で LLM が使用する trace に追加する。
ゼロショットの連鎖思考を用いて、失敗推論と改善された計画を生成させ、バックトラックおよびゼロからの派生案をサポートする。
サンプリングベースのモーションプランナー（例：BiRRT）を介したグラウンドアクション展開を実装し、意味的に意味のあるフィードバックを統合する。
LLM がシンボリック計画とパラメータサンプリングを処理する planner に依存しないインターフェースを採用し、手動のドメイン設計を削減する。

実験結果

リサーチクエスチョン

RQ1事前学習済みの LLM は、事前に定義された計画ドメインなしで TAMP のドメインに依存しないタスクプランナーとして機能できるか？
RQ2動作計画のフィードバックを LLM の条件付けに用いると、計画の実現可能性と計画効率は向上するか？
RQ3計画イテレーション数とモーションプランナー呼び出しの観点で、LLM ベースのパラメータサンプリングはランダムサンプリングとどう比較されるか？

主な発見

動作失敗推論が有効な場合、LLM3 はより高い計画成功率と低い計画作業量を達成する。
LLM ベースのパラメータサンプリングは、モーションプランニングにおいてランダムサンプリングより著しくサンプル効率が高い。
アブレーションにおいて、動作失敗推論は全体の成功率を大きく向上させ、モーションプランナーの使用を減らす。
バックトラックとゼロからの派生戦略の両方がモーションフィードバックの恩恵を受け、すべての状況で明確な勝者はない。
実機ロボット実験は、現実の不確実性の下で知覚を有効にした操作タスクの実現可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。