Skip to main content
QUICK REVIEW

[论文解读] On the Planning Abilities of Large Language Models : A Critical Investigation

Karthik Valmeekam, Matthew Marquez|arXiv (Cornell University)|May 25, 2023
Natural Language Processing Techniques被引用 52
一句话总结

本文系统性评估了LLMs的自主规划能力以及其作为外部规划器启发式生成器的作用,发现自主规划性能有限,但在带验证器并使用回推提示的LLM-Modulo 设置中具有潜力。

ABSTRACT

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) the effectiveness of LLMs in generating plans autonomously in commonsense planning tasks and (2) the potential of LLMs in LLM-Modulo settings where they act as a source of heuristic guidance for external planners and verifiers. We conduct a systematic study by generating a suite of instances on domains similar to the ones employed in the International Planning Competition and evaluate LLMs in two distinct modes: autonomous and heuristic. Our findings reveal that LLMs' ability to generate executable plans autonomously is rather limited, with the best model (GPT-4) having an average success rate of ~12% across the domains. However, the results in the LLM-Modulo setting show more promise. In the LLM-Modulo setting, we demonstrate that LLM-generated plans can improve the search process for underlying sound planners and additionally show that external verifiers can help provide feedback on the generated plans and back-prompt the LLM for better plan generation.

研究动机与目标

  • 评估LLMs在常识性规划任务中生成自主计划的有效性。
  • 评估LLMs作为外部规划者和验证器在规划任务中的启发式指导来源。
  • 在多个规划领域比较自主性能与LLM-Modulo设定的表现。
  • 分析提示配置、领域混淆与放宽条件对LLM规划的影响。
  • 提供人类基线并讨论潜在的人机协同益处。

提出的方法

  • 使用PDDL基于IPC领域建模,创建一组规划问题实例。
  • 在自主和单-shot/少-shot 配置下评估GPT-4、GPT-3.5及早期GPT变体。
  • 使用VAL验证LLM生成的计划并衡量可执行性。
  • 将LLM生成的计划作为LPG局部搜索规划器的种子并分析搜索效率。
  • 实现混淆的领域名称以测试LLM规划的脆弱性。
  • 结合VAL反馈进行回提示以提升计划质量。

实验结果

研究问题

  • RQ1LLMs在常识性规划任务中能否自主生成可执行的计划?
  • RQ2LLMs是否为外部规划者(LLM-Modulo)或验证器提供有用的启发式指导,以改进规划结果?
  • RQ3提示配置(自然语言与PDDL、单-shot与零-shot)如何影响LLM规划性能?
  • RQ4领域混淆对LLM规划能力有何影响?
  • RQ5自动化验证器和回提示能否在实践中提升LLM生成的计划?

主要发现

  • LLMs的自主规划性能有限,GPT-4在各领域的可执行性平均约为12%。
  • 提示类型、模型版本和混淆对性能影响显著;即使是GPT-4在非显性的领域也表现吃力。
  • 在LLM-Modulo模式下,当与LPG或外部验证器一起使用时,LLM生成的计划可以加速正确计划的搜索。
  • 使用带自动验证器(VAL)的回提示在Blocksworld和物流领域产生了显著的计划修正(在测试子集中分别达到82%和70%的正确率)。
  • 混淆的领域名称在很大程度上破坏了LLM规划性能,表明其更依赖模式匹配而非稳健推理。
  • 在人类在Blocksworld上的表现优于LLMs,表明该领域对人类仍然简单,但对当前LLMs具有挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。