Skip to main content
QUICK REVIEW

[論文レビュー] AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers

Yongchao Chen, Jacob Arkin|arXiv (Cornell University)|Jun 10, 2023
Natural Language Processing Techniques被引用数 9
ひとこと要約

AutoTAMP は自然言語タスクを STL 仕様へ翻訳し、次に STL プランナーを用いてタスクとモーションを結合計画する。自己回帰型の意味論的誤り検証により計画の実現性を向上させる。

ABSTRACT

For effective human-robot interaction, robots need to understand, plan, and execute complex, long-horizon tasks described by natural language. Recent advances in large language models (LLMs) have shown promise for translating natural language into robot action sequences for complex tasks. However, existing approaches either translate the natural language directly into robot trajectories or factor the inference process by decomposing language into task sub-goals and relying on a motion planner to execute each sub-goal. When complex environmental and temporal constraints are involved, inference over planning tasks must be performed jointly with motion plans using traditional task-and-motion planning (TAMP) algorithms, making factorization into subgoals untenable. Rather than using LLMs to directly plan task sub-goals, we instead perform few-shot translation from natural language task descriptions to an intermediate task representation that can then be consumed by a TAMP algorithm to jointly solve the task and motion plan. To improve translation, we automatically detect and correct both syntactic and semantic errors via autoregressive re-prompting, resulting in significant improvements in task completion. We show that our approach outperforms several methods using LLMs as planners in complex task domains. See our project website https://yongchao98.github.io/MIT-REALM-AutoTAMP/ for prompts, videos, and code.

研究の動機と目的

  • 自然言語タスク説明を TAMP ソルバーが実行可能な正式なタスク仕様へ翻訳できるようにする。
  • サブゴールへ分解することなくタスクとモーションの結合計画を共同最適化する。
  • 自己回帰型意味論的検証と統語的修正によって翻訳品質を向上させる。
  • 難易度の高い幾何・時間制約を伴う複雑な 2D タスク領域でのロバスト性を評価する。
  • 再現性とさらなる研究促進のためのデータセットとコードを提供する。

提案手法

  • 自然言語タスク説明を few-shot in-context learning で STL に翻訳する。
  • STL ベースのマルチエージェント軌道計画機を用いて実行可能な時刻付きウェイポイント軌道を生成する。
  • 二つのリプロンプト手法を適用する:統語エラー検証機を用いた統語的修正と元の指示に対する意味論的検証を行う自己回帰型チェック。
  • 統語的・意味的整合性が達成されるまで STL 翻訳を反復的に洗練させる(事前に定められた反復回数の範囲内で)。
  • AutoTAMP をエンドツーエンドの LLM 計画や LLM ベースのタスク計画のベースラインと、さまざまな 2D ドメインで比較する。
  • 必要に応じて NL2TL などの微調整済み NL から TL への翻訳パイプラインと比較し、データ効率と性能を評価する。
Figure 1: Illustration of different approaches applying LLMs for task and motion planning; our work contributes the LLM-As-Translator & Checker approach. Each approach accepts a natural language instruction and environment state as input and outputs a robot trajectory.
Figure 1: Illustration of different approaches applying LLMs for task and motion planning; our work contributes the LLM-As-Translator & Checker approach. Each approach accepts a natural language instruction and environment state as input and outputs a robot trajectory.

実験結果

リサーチクエスチョン

  • RQ1NL タスクを STL に翻訳して STL プランナーで解くことは、複雑な TAMP タスクでエンドツーエンド LLM 計画より優れているか?
  • RQ2統語・意味の再プロンプトは翻訳の品質とタスク成功率にどのような影響を与えるか?
  • RQ3AutoTAMP は時間的・幾何的制約を持つ単一エージェントおよびマルチエージェントのタスクへ一般化できるか?
  • RQ4NL からロジックへ翻訳する NL2TL などと比べて、性能とデータ効率はどうか?

主な発見

  • 統語と意味の再プロンプトを用いた AutoTAMP は、修正なしの翻訳と比較してタスク成功率を著しく向上させる。
  • 硬い時間的または幾何的制約を有する単一エージェントの 2D タスクでは、AutoTAMP は多くのシナリオでエンドツーエンドの LLM 計画とナイーブなタスク計画を上回る。
  • GPT-4 ベースの翻訳は、実験全般において GPT-3 ベースの翻訳より性能が高い傾向。
  • 意味論的検証を取り入れた自己回帰型プロンプトは、純粋な統語訂正やノー訂正のベースラインより顕著な改善をもたらす。
  • アブレーション実験は、再プロンプト付きの NL から STL への翻訳が、追加訓練データなしで Fine-tuned NL2TL パイプラインの性能に近づくことを示唆。
  • 実験は 2D および 3D シミュレーションと実ロボットでの実物デモを含み、実用性を裏付ける。
Figure 2: GPT-4 failure case for direct end-to-end trajectory planning. The orange line shows the correct path obeying the instruction. The purple and gray dashed lines show the trajectories from GPT-4 after first and second prompts, respectively. GPT-4 generates a list of $(x,y)$ locations with ass
Figure 2: GPT-4 failure case for direct end-to-end trajectory planning. The orange line shows the correct path obeying the instruction. The purple and gray dashed lines show the trajectories from GPT-4 after first and second prompts, respectively. GPT-4 generates a list of $(x,y)$ locations with ass

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。