QUICK REVIEW

[論文レビュー] On the Planning Abilities of Large Language Models : A Critical Investigation

Karthik Valmeekam, Matthew Marquez|arXiv (Cornell University)|May 25, 2023

Natural Language Processing Techniques被引用数 52

ひとこと要約

本論文は、LLMs の自律的計画能力と外部プランナーのヒューリスティック生成源としての利用を体系的に評価し、限定的な自律計画性能を示す一方で、検証機と backprompting を用いた LLM-Modulo 設定に潜在的な可能性があることを示している。

ABSTRACT

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) the effectiveness of LLMs in generating plans autonomously in commonsense planning tasks and (2) the potential of LLMs in LLM-Modulo settings where they act as a source of heuristic guidance for external planners and verifiers. We conduct a systematic study by generating a suite of instances on domains similar to the ones employed in the International Planning Competition and evaluate LLMs in two distinct modes: autonomous and heuristic. Our findings reveal that LLMs' ability to generate executable plans autonomously is rather limited, with the best model (GPT-4) having an average success rate of ~12% across the domains. However, the results in the LLM-Modulo setting show more promise. In the LLM-Modulo setting, we demonstrate that LLM-generated plans can improve the search process for underlying sound planners and additionally show that external verifiers can help provide feedback on the generated plans and back-prompt the LLM for better plan generation.

研究の動機と目的

LLMs が常識的な計画タスクの自律的計画をどれだけ効果的に生成するかを評価する。
LLMs を外部プランナーおよび検証者に対するヒューリスティック指針の源として評価する。
自動計画性能を複数のプランニング領域で LLM-Modulo 設定と比較する。
プロンプト構成、ドメインの不透明化、緩和の影響を LLM 計画に対して分析する。
人間のベースラインを提供し、人間-in-the-loop の潜在的利点を議論する。

提案手法

IPC ドメインを模した PDDL を用いて実例を生成する計画問題のスイートを作成する。
GPT-4、GPT-3.5、および従来の GPT 変種を自律およびワンショット/フェウショット設定で評価する。
LLM が生成した計画を VAL で検証し、実行可能性を測定する。
LLM が生成した計画を LPG のローカル探索プランナーの種として試し、探索効率を分析する。
不透明なドメイン名を実装して LLM 計画の脆弱性を検証する。
VAL のフィードバックを用いたバックプロンプティングを適用して計画品質を向上させる。

実験結果

リサーチクエスチョン

RQ1LLMs は常識的な計画タスクにおいて自律的に実行可能な計画を生成できるか。
RQ2LLMs は外部プランナー（LLM-Modulo）または検証者に有用なヒューリスティック指針を提供し、計画結果を改善するか。
RQ3プロンプト構成（自然言語対 PDDL、ワンショット対ゼロショット）は LLM 計画性能にどのような影響を及ぼすか。
RQ4ドメインの不透明化は LLM 計画能力にどのような影響を与えるか。
RQ5自動化された検証者とバックプロンプティングは実践的に LLM 生成計画を改善できるか。

主な発見

LLMs の自律的計画性能は限定的で、GPT-4 はドメインを跨いで平均約12% の実行可能性を達成している。
プロンプトの種類、モデルバージョン、および不透明化は性能に劇的な影響を与え、直感的でないドメインでは GPT-4 でさえ苦戦する。
LLM-Modulo モードでは、LLM が生成した計画を LPG や外部検証者と組み合わせて使用すると正しい計画の探索を加速できる。
自動検証機（VAL）を用いたバックプロンプティングは Blocksworld と Logistics のドメインで計画の大幅な訂正をもたらす（ tested subset における正解率 82% および 70% など）。
不透明なドメイン名は LLM 計画性能を大幅に破壊することが多く、パターンマッチングに依存して頑健な推論には欠けることを示唆する。
humans は Blocksworld で LLM を上回っており、このドメインは人間にはまだ簡単だが現在の LLM にとっては難しいことを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。