[论文解读] Reasoning with Language Model is Planning with World Model
RAP 通过内部世界模型和蒙特卡罗树搜索规划使大模型(LLMs)能够进行推理,在超出标准链式思维提示的情况下提升计划生成、数学推理和逻辑推理。
Large language models (LLMs) have shown remarkable reasoning capabilities, especially when prompted to generate intermediate reasoning steps (e.g., Chain-of-Thought, CoT). However, LLMs can still struggle with problems that are easy for humans, such as generating action plans for executing tasks in a given environment, or performing complex math, logical, and commonsense reasoning. The deficiency stems from the key fact that LLMs lack an internal $ extit{world model}$ to predict the world $ extit{state}$ (e.g., environment status, intermediate variable values) and simulate long-term outcomes of actions. This prevents LLMs from performing deliberate planning akin to human brains, which involves exploring alternative reasoning paths, anticipating future states and rewards, and iteratively refining existing reasoning steps. To overcome the limitations, we propose a new LLM reasoning framework, $\underline{R}$easoning vi$\underline{a}$ $\underline{P}$lanning $ extbf{(RAP)}$. RAP repurposes the LLM as both a world model and a reasoning agent, and incorporates a principled planning algorithm (based on Monto Carlo Tree Search) for strategic exploration in the vast reasoning space. During reasoning, the LLM (as agent) incrementally builds a reasoning tree under the guidance of the LLM (as world model) and task-specific rewards, and obtains a high-reward reasoning path efficiently with a proper balance between exploration $ extit{vs.}$ exploitation. We apply RAP to a variety of challenging reasoning problems including plan generation, math reasoning, and logical inference. Empirical results on these tasks demonstrate the superiority of RAP over various strong baselines, including CoT and least-to-most prompting with self-consistency. RAP on LLAMA-33B surpasses CoT on GPT-4 with 33% relative improvement in a plan generation setting.
研究动机与目标
- 激励并解决 LLM 缺乏用于规划和长期跨度推理的内部世界模型的缺口。
- 提出一个框架(RAP),将 LLM 重新用于作为世界模型和推理代理。
- 展示 RAP 在计划生成、数学推理和逻辑推理方面的有效性。
- 证明以学习得到的奖励引导的 MCTS 规划能够产生高质量的推理轨迹。
提出的方法
- 为每个推理任务定义状态和行动,并通过提示使 LLM 实例化世界模型。
- 为推理步骤引入奖励,包括行动似然度、状态置信度、自我评估以及特定任务的启发式规则。
- 应用蒙特卡罗树搜索来构建并评估推理轨迹,采用基于 UCT 的选择、扩展、模拟和回传。
- 在合适时允许 RAP 聚合(RAP-Aggregation)将多条推理轨迹集成为最终答案。
- 证明作为世界模型与代理的 LLM 能在探索与利用之间取得平衡,从而发现高奖励的推理路径。
实验结果
研究问题
- RQ1嵌入在 LLM 内部的世界模型是否能够在不同领域提升类似规划的推理?
- RQ2以 LLM 派生奖励引导的 MCTS 规划是否比标准的 CoT 提示产出更高质量的推理轨迹?
- RQ3相较于强基线,RAP 在计划生成、数学推理和逻辑推理方面的表现如何?
- RQ4在特定情境下,RAP 是否能超越或赶上强大模型(如带 CoT 的 GPT-4)?
主要发现
- RAP 在 2/4/6 步 Blocksworld 计划生成中平均达到 64% 的成功率,显著超越 CoT。
- LLaMA-33B 配合 RAP 在计划生成方面相对于带 CoT 的 GPT-4 的相对增益达到 33%。
- RAP 提升了 GSM8K 的数学推理准确度,相较于 Chain-of-Thought 与带自我一致性的最少到最多提示,准确率约为 48.8%(聚合后提升至 51.6%)。
- 在 PrOntoQA 逻辑推理中,RAP 预测准确率为 94.2%,证明准确率为 78.8%,超过 CoT 基线。
- RAP 在带 Llama-2 70B 的完整 Blocksworld 上表现出鲁棒性,在更难的 6 步以上情况下仍保持较高能力,而 CoT 有所下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。