QUICK REVIEW

[論文レビュー] Errors are Useful Prompts: Instruction Guided Task Programming with Verifier-Assisted Iterative Prompting

Marta Skreta, Naruki Yoshikawa|arXiv (Cornell University)|Mar 24, 2023

Topic Modeling被引用数 18

ひとこと要約

CLAIRifyは verifier-assisted iterative promptingを用いて自然言語から文法的に有効なドメイン特化タスク計画を生成し、ベースラインを上回り実機ロボット実行を可能にする。

ABSTRACT

Generating low-level robot task plans from high-level natural language instructions remains a challenging problem. Although large language models have shown promising results in generating plans, the accuracy of the output remains unverified. Furthermore, the lack of domain-specific language data poses a limitation on the applicability of these models. In this paper, we propose CLAIRIFY, a novel approach that combines automatic iterative prompting with program verification to ensure programs written in data-scarce domain-specific language are syntactically valid and incorporate environment constraints. Our approach provides effective guidance to the language model on generating structured-like task plans by incorporating any errors as feedback, while the verifier ensures the syntactic accuracy of the generated plans. We demonstrate the effectiveness of CLAIRIFY in planning chemistry experiments by achieving state-of-the-art results. We also show that the generated plans can be executed on a real robot by integrating them with a task and motion planner.

研究の動機と目的

特定ドメイン言語（DSL）でLLM生成計画のタスク計画検証不足を解消する。
対象DSLの言語説明を用いたインコンテキスト学習を活用してDSLのデータ不足を緩和する。
生成計画の統語的妥当性と環境制約適合性を保証する。
タスク計画と運動計画（TAMP）との統合を介して生成計画の実行を実証する。
化学データセット上での従来のXDL生成法より優れた性能を示す。

提案手法

対象DSLの説明をゼロショットプロンプトでLLMに提供する.
構造化言語様の出力を反復的に生成し、規則ベースの検 verifierで検証する。
syntax/constraint errors back into the LLM to修正して in subsequent iterations.
環境制約をプロンプトと検 verifierに組み込み、実現不能な計画を剪定する。
検証済みDSL計画を低レベル行動へ変換してロボット実行用のTAMPフレームワークで実行する。
化学記述言語（XDL）と実ロボット実験で結果を示す。

Figure 1 : Task plans generated by LLMs may contain syntactical errors in domain-specific languages. By using verifier-assited iterative prompting, CLAIRify can generate a valid program, which can be executed by a robot.

実験結果

リサーチクエスチョン

RQ1自動的な反復プロンプティングはDSLタスク計画のゼロショット生成を改善できるのか？
RQ2検証者主導の反復は、ベースラインより統語的に正しく実行可能なDSLプログラムをより効果的に生み出すのか？
RQ3DSL計画はTAMPフレームワークと統合して実ロボットで実行可能なのか？
RQ4環境制約の組み込みは計画の有効性と実現性にどう影響するのか？

主な発見

データセット	方法	生成数 ↑	専門家の好み ↑
Chem-RnD	SynthReader [16]	92/108	13/108
Chem-RnD	CLAIRify [ours]	105/108	75/108
Chem-EDU	SynthReader [16]	0/40	-
Chem-EDU	CLAIRify [ours]	40/40	-

CLAIRifyはChem-RnDでXDL計画生成において105/108、SynthReaderで92/108を達成。
CLAIRifyはChem-EDUでXDL計画生成において40/40を達成、SynthReaderは0/40。
エキスパートはChem-RnDでSynthReaderよりCLAIRifyの計画を75/108回好む（SynthReaderは13/108）。
各実験あたりの検証者の相互作用はChem-RnDで平均2.58、Chem-EDUで1.15で、効果的なフィードバックループを示唆。
CLAIRify計画はTAMPフレームワークと統合して現実世界の実験（色変化やレモネード課題）でロボットに実行可能だった。
エラー分析は、欠落アクションを従来より減らす一方、より豊富なドメイン知識で緩和可能な他のアクション・パラメータの誤りを生じさせることがある。

Figure 2 : System overview : The LLM takes the input (1), structured language definition, and (optionally) resource constraints and generates unverified structured language (2). The output is examined by the verifier, and is passed to LLM with feedback (3). The LLM-generated outputs passes through t

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。