[論文レビュー] Translating Natural Language to Planning Goals with Large-Language Models
本論文は、自然言語をPDDLゴールへ翻訳する翻訳者としてのGPT-3.5系を評価し、明示的で十分に仕様されたタスクには強力な翻訳性能を示す一方で、部分的に仕様されたタスクや数値・物理的要件を伴うタスクについては信頼性が限定的であることを示しており、プランナーのゴール翻訳者としてのLLM利用の可能性と落とし穴の両方を浮き彫りにしている。
Recent large language models (LLMs) have demonstrated remarkable performance on a variety of natural language processing (NLP) tasks, leading to intense excitement about their applicability across various domains. Unfortunately, recent work has also shown that LLMs are unable to perform accurate reasoning nor solve planning problems, which may limit their usefulness for robotics-related tasks. In this work, our central question is whether LLMs are able to translate goals specified in natural language to a structured planning language. If so, LLM can act as a natural interface between the planner and human users; the translated goal can be handed to domain-independent AI planners that are very effective at planning. Our empirical results on GPT 3.5 variants show that LLMs are much better suited towards translation rather than planning. We find that LLMs are able to leverage commonsense knowledge and reasoning to furnish missing details from under-specified goals (as is often the case in natural language). However, our experiments also reveal that LLMs can fail to generate goals in tasks that involve numerical or physical (e.g., spatial) reasoning, and that LLMs are sensitive to the prompts used. As such, these models are promising for translation to structured planning languages, but care should be taken in their use.
研究の動機と目的
- 大規模言語モデルが計画のための自然言語指示をPDDLゴールへ翻訳できるかを評価する。
- プロンプト(ワンショット対ファショット)が翻訳品質とドメイン構成全体の一般化にどう影響するかを評価する。
- 翻訳の失敗モードを特定し、特に数値・空間・述語意味論推論に関連するサブタスク(ドメイン理解、ゴール推定、PDDLゴールの生成)を分析する。
- 翻訳を計画から分離する(パースして解くアプローチ)ことによるロボット計画のためのLLMベースのゴール翻訳器設計の指針を提供する。
提案手法
- Blocksworldにはcode-davinci-002、ALFRED-Lにはtext-davinci-003を用いて英語指示をPDDLゴールへ翻訳する。
- 明示的に指定されたゴールと部分的に指定されたゴールを含む様々なタスクタイプで、二つのドメイン(BlocksworldとALFRED-L)をテストする。
- プランナーの適合性と述語の正確さに対する厳密/緩い成功基準で翻訳を評価する。
- 翻訳をドメイン理解、ゴール推定、PDDLゴールの指定へ分解して、失敗点を診断する。
- n-shotプロンプトと文の順序(bottom-to-top vs. top-to-bottom)を変えてプロンプト感度を分析する。
実験結果
リサーチクエスチョン
- RQ1LLMsはドメイン間で自然言語ゴールをPDDL互換ゴールへ信頼性高く翻訳できるか。
- RQ2ドメイン理解、ゴール推定、PDDL生成が翻訳の成功または失敗にどのように寄与するか。
- RQ3プロンプト設計(ショット数、例、順序)が翻訳性能と一般化に与える影響は。
- RQ4特に数値・空間推論に関連する計画ゴールへ翻訳する際の主な失敗モードは何か。
主な発見
- LLMsは明示的で曖昧さの少ない自然言語ゴールをPDDLへ高い成功率で翻訳できる:厳格な条件下(例:ExplicitStacks:loose 99.67%、strict 98.67%;ALFRED-LのExplicitInstruct:両方とも100%)。”
- 部分的に指定されたゴールやあいままなプロンプトでは性能が低下する(例:BlockAmbiguity、KStacksColorはstrict/loose基準の下で低い成功)。
- 翻訳性能はプロンプトに敏感で、ワンショット対ファショットの例や並び順(bottom-to-top対top-to-bottom)で大きな差が生じる可能性がある(ExplicitStacks-IIは約50%程度だが、明示的ケースではより高い)。
- LLMsは言語能力と常識的な穴埋め能力を示す一方で、数値・物理(空間)推論には弱く、数え上げや入れ子の関係などのタスクに影響を与える(MoveToCount2/3、MoveNested、MoveNested2)。
- ドメイン理解とゴール推定のサブタスクは翻訳の成功と相関し、失敗はしばしばドメインモデルの意味述語や階層的関係(Blocksworld)や数値・グラウンドingt 的な側面(ALFRED-L)で生じる。
- パースして解く(翻訳先行)アプローチは有望だが、実 systemsで信頼性を確保するにはモデルのバイアスや失敗モードを慎重に扱う必要がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。