[论文解读] Language Model Planners do not Scale, but do Formalizers?
本文展示将LLMs作为规划者在应对复杂性方面表现欠佳,而将LLMs作为形式化者在扩展能力方面出人意料地强,尤其是在分治(divide-and-conquer)和更高阶形式化(higher-order formalization)以处理展开问题时。
Recent work shows overwhelming evidence that LLMs, even those trained to scale their reasoning trace, perform unsatisfactorily when solving planning problems too complex. Whether the same conclusion holds for LLM formalizers that generate solver-oriented programs remains unknown. We systematically show that LLM formalizers greatly out-scale LLM planners, some retaining perfect accuracy in the classic BlocksWorld domain with a huge state space of size up to $10^{165}$. While performance of smaller LLM formalizers degrades with problem complexity, we show that a divide-and-conquer formalizing technique can greatly improve its robustness. Finally, we introduce unraveling problems where one line of problem description realistically corresponds to exponentially many lines of formal language such as the Planning Domain Definition Language (PDDL), greatly challenging LLM formalizers. We tackle this challenge by introducing a new paradigm, namely LLM-as-higher-order-formalizer, where an LLM generates a program generator. This decouples token output from the combinatorial explosion of the underlying formalization and search space.
研究动机与目标
- 评估问题复杂性如何影响LLM驱动的规划——当用作规划者与形式化者时的差异。
- 评估BlocksWorld-XXL以测量在大规模实体/状态空间中的可扩展性。
- 研究降低上下文与搜索空间挑战的策略(分治、更高阶形式化)。
- 揭示NL描述压缩大规模形式结构时的展开问题,并测试形式化者的鲁棒性。
提出的方法
- 在BlocksWorld-XXL上将最先进的LLMs作为规划者和形式化者进行评估,实体空间高达100,状态空间高达10^165。
- 使用标准的程序化规划器和PDDL验证器来测量计划准确性。
- 引入分治式形式化:生成问题头信息,然后对每个句子给出一行PDDL以降低上下文过载。
- 提出LLM作为更高阶形式化者:让LLM生成一个程序生成器输出PDDL,从而减少输出的token数量。
- 创建BlocksWorld-Unravel以模拟高度压缩的NL描述映射到大型PDDL文件的情况。
实验结果
研究问题
- RQ1LLMs在大而复杂的规划问题上作为规划者还是作为形式化者更具可扩展性?
- RQ2分治式形式化是否能提升在将NL翻译为PDDL时较弱模型的表现?
- RQ3展开问题(NL行压缩为大量PDDL行)对LLM形式化者有哪些影响?
- RQ4更高阶形式化是否通过将输出token与潜在搜索空间解耦来缓解组合爆炸?
主要发现
- 当问题复杂性超出小规模(BlocksWorld-XXL)时,LLM-作为规划者的性能下降至20%及以下的准确率,且对所有模型均如此。
- LLM-作为形式化者总体扩展性更好;Gemini 3 Flash在100个块时保持100%准确率;Qwen2.5-Coder-32B-Instruct在80个块前保持高于70%,但之后下降。
- 分治式形式化能提升较弱模型的性能;例如Qwen2.5形式化在100个块时从30%提升至100%。
- 展开问题导致规划者几乎无效,对形式化者及分治式方法也造成严重降级;标准方法在高压缩比下表现吃力。
- 更高阶形式化(LLM生成程序生成器)相比纯形式化,对Gemini 3和Q25的性能提升显著,尤其在G3F上。
- 错误分析显示为何HO-形式化有帮助:HO形式化中Q25的失败有84%并非由初始条件引起,而标准形式化为18%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。