[论文解读] LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
本论文在 PlanBench 上对 OpenAI 的 o1(OpenAI 大型推理模型)进行基准评估,与 PlanBench 和常规 LLMs 相比,显示出显著但仍不充分的规划能力,并且相比经典规划者在效率/成本和保证方面存在显著担忧。
The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities. PlanBench, an extensible benchmark we developed in 2022, soon after the release of GPT3, has remained an important tool for evaluating the planning abilities of LLMs. Despite the slew of new private and open source LLMs since GPT3, progress on this benchmark has been surprisingly slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs--making it a new kind of model: a Large Reasoning Model (LRM). Using this development as a catalyst, this paper takes a comprehensive look at how well current LLMs and new LRMs do on PlanBench. As we shall see, while o1's performance is a quantum improvement on the benchmark, outpacing the competition, it is still far from saturating it. This improvement also brings to the fore questions about accuracy, efficiency, and guarantees which must be considered before deploying such systems.
研究动机与目标
- 评估当代 LLMs 与 OpenAI 的 o1 大型推理模型在 PlanBench 任务上是否能够进行有效规划。
- 在 Blocksworld 的变体和混淆域上,比对 o1 与代表性 LLMs 的性能。
- 检视 LRMs 相对于传统规划器在效率、成本以及正确性保证方面的存在性。
提出的方法
- 对固定集的 600 个 Blocksworld 实例和 600 个 Mystery Blocksworld 实例使用多种模型运行 PlanBench。
- 将 o1 的输出转换为可评估的规划表示(PDDL)以获得精确评分。
- 在各模型中记录准确性、每个实例的时间以及提示成本。
- 与 Fast Downward(经典规划器)进行比较,并将 LLM-Modulo 方法作为替代进行讨论。
- 分析不可解实例的识别以及 o1 的潜在可靠性问题。
实验结果
研究问题
- RQ1在 PlanBench 上,普通的 LLM 与 OpenAI 的 o1 大型推理模型相比的表现如何?
- RQ2LRMs 是否在 PlanBench 的混淆变体(Mystery Blocksworld)上实现稳健的规划性能?
- RQ3将 LRMs 用于规划相较于经典规划器和基于 LLM 的方法,其在效率、成本及保证方面的权衡是什么?
主要发现
- 在 Blocksworld 上,最佳 LLM(LLaMA 3.1 405B)的准确率达到 62.6%,而 o1-preview 在 Blocksworld 的零-shot 情况下最高可达 97.8%。
- 在 Mystery Blocksworld 上,o1-preview 达到 52.8% 的准确率,显著高于先前模型但仍远未完美。
- 在 Randomized Mystery Blocksworld 上,o1-preview 达到 37.3% 的准确率,表明混淆挑战。
- 随着问题规模的扩大,性能显著下降;在 110 个较大 Blocksworld 问题(6–20 个块,20–40 步)中,o1-preview 的准确率降至 23.63%。
- LRMs 相对每 100 个实例的成本显著高于 LLMs(例如 o1-mini 为 42.12 美元,而某些 LLMs 为 0.65 美元),且不像 classical planners 那样在同一任务上实现 100% 的正确性保证,且几乎即时高效。
- 像 Fast Downward 这样的经典规划器在所有测试实例上都能即时解决并具备保证(每个实例 0.265 秒),成本几乎为零,凸显出对 LRMs 的强大效率差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。