QUICK REVIEW

[論文レビュー] Language Model Planners do not Scale, but do Formalizers?

Owen Jiang, Cassie Huang|arXiv (Cornell University)|Mar 25, 2026

AI-based Problem Solving and Planning被引用数 0

ひとこと要約

要約: 論文はLLMをプランナーとして用いると複雑さに苦労する一方、LLMを形式化者として用いると驚くほどスケールすることを示しており、特に分割統治と高次形式化を用いた未解決問題の取り扱いに有効である。

ABSTRACT

Recent work shows overwhelming evidence that LLMs, even those trained to scale their reasoning trace, perform unsatisfactorily when solving planning problems too complex. Whether the same conclusion holds for LLM formalizers that generate solver-oriented programs remains unknown. We systematically show that LLM formalizers greatly out-scale LLM planners, some retaining perfect accuracy in the classic BlocksWorld domain with a huge state space of size up to $10^{165}$. While performance of smaller LLM formalizers degrades with problem complexity, we show that a divide-and-conquer formalizing technique can greatly improve its robustness. Finally, we introduce unraveling problems where one line of problem description realistically corresponds to exponentially many lines of formal language such as the Planning Domain Definition Language (PDDL), greatly challenging LLM formalizers. We tackle this challenge by introducing a new paradigm, namely LLM-as-higher-order-formalizer, where an LLM generates a program generator. This decouples token output from the combinatorial explosion of the underlying formalization and search space.

研究の動機と目的

問題の複雑さがLLM駆動計画に与える影響を、プランナーとしてと形式化者として比較評価する。
BlocksWorld-XXLを評価し、大規模なエンティティ/状態空間でのスケーラビリティを測定する。
文脈と探索空間の課題を緩和するための戦略（分割統治、高次形式化）を調査する。
NL記述が大規模な形式構造を圧縮する未解決問題を明らかにし、形式化者の頑健性を検証する。

提案手法

最新のLLMをプランナーとしておよび形式化者としてBlocksWorld-XXL（エンティティ空間は最大100、状態空間は最大10^165）で評価する。
標準的なプログラム型プランナーとPDDL検証器を用いてプランの正確性を測定する。
分割統治形式化を導入：問題ヘッダを生成し、その後各文ごとに1文PDDLを出力して文脈過負荷を低減する。
LLMを高次形式化子として提案：LLMにPDDLを出力するプログラム生成器を生成させ、出力トークンを削減する。
BlocksWorld-Unravelを作成し、NL記述が大規模なPDDLファイルへ高度に圧縮される状況を模擬する。

実験結果

リサーチクエスチョン

RQ1LLMは大規模で複雑な計画問題に対して、プランナーとしてより形式化者としてよりスケールするのか。
RQ2分割統治形式化はNLからPDDLへの変換で性能が低いモデルを改善できるのか。
RQ3NL行が多くのPDDL行へ圧縮される未解決問題がLLMの形式化者に与える影響はどうなるか。
RQ4高次形式化は出力トークンと基盤となる探索空間を切り離すことで組合せ爆発を緩和できるのか。

主な発見

LLMをプランナーとしての性能は、問題の複雑さが小さなサイズを超えるとすべてのモデルで20%以上の精度を下回る（BlocksWorld-XXL）。
LLMを形式化者としては一般にはるかに良くスケールする。Gemini 3 Flashでは100ブロックまで精度が100%を維持。Qwen2.5-Coder-32B-Instructは80ブロック以降低下するまで70%を超えて推移。
分割統治形式化はより弱いモデルを改善する。例としてQwen2.5形式化者は100ブロック時に30%から100%へ改善。
未解決問題はプランナーの性能をほぼ0に近づけ、形式化者と分割統治の性能を大きく劣化させる；標準的アプローチは高圧縮比に対して苦戦。
高次形式化子（LLMがプログラム生成器を生成する形式化）は、純粋な形式化と比べて、特にG3Fにおいて、Gemini 3とQ25の両方の性能を著しく向上させる。
エラー分析はHO形式化の利点を示す：HO形式化でのQ25の失敗の84%は初期条件に起因せず、標準形式化では18%にとどまる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。