[论文解读] When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark
该论文基准评估一次性提示与计划–执行–再计划(tool-enabled)的推理在 Event-QA 与 CMV 上的表现,强调在 GPT-4o 与 GPT-4o-mini 下,任务与工具依赖的准确性、延迟与成本之间的权衡。
Modern large language models (LLMs) increasingly rely on inference-time planning and external tools to improve reasoning. We benchmark this behavior on two real-world settings: event-centric question answering over graph-structured knowledge (Event-QA) and persuasive response generation in Reddit ChangeMyView (CMV). Using LangChain and LangGraph, we compare a one-shot baseline against a plan-execute-replan agent equipped with task-specific tools (DBpedia SPARQL/lookup/schema exploration, Wikipedia-focused retrieval, and topical web search). We evaluate on 60 examples each from Event-QA and CMV (3 splits of 20), and report both mean end-to-end latency and per-example token cost estimates. We evaluate GPT-4o and GPT-4o-mini under identical workflows and report accuracy and end-to-end latency. On Event-QA, the best tool-augmented configuration improves accuracy (e.g., 47.5\% $ ightarrow$ 67.5\% for GPT-4o) while increasing latency by orders of magnitude ($\sim$8s $ ightarrow$ $\sim$317s per example). On CMV, one-shot prompting is strongest (e.g., GPT-4o-mini achieves 75\% at $\sim$6s), and planning+search increases latency substantially without consistent gains. However, complex multi-tool orchestration exposes failure modes where the smaller model degrades. Overall, the findings highlight the need for task-specific, cost-aware choices of both model size and agent/tooling complexity.
研究动机与目标
- 评估何时推理时规划和外部工具能够在现实任务中提升相较于一次性提示的准确性。
- 量化不同模型规模与工具配置下,每获得一个准确性点的延迟与成本。
- 评估模型规模、工具编排以及任务类型之间的交互效应,以指导成本感知的部署。
提出的方法
- 实现一个三阶段的 plan–execute–replan 智能体,使用 LangGraph 和 LangChain 工具。
- 评估两个真实世界任务(基于知识图谱的 Event-QA 与 CMV 说服性回答生成)。
- 比较基线(NoPlanning)与工具增强配置(Event-QA 使用 Wikipedia/DBpedia;CMV 使用主题网页检索)。
- 在 GPT-4o 与 GPT-4o-mini 上对任务的三个分组各 60 个样本,测量准确性与端到端延迟。
- 针对各分组调整提示与工具使用,然后保留用于最终报告。
- 在每种配置下报告准确性与每个样本的平均推理时间。

实验结果
研究问题
- RQ1RQ1: 相较于一次性提示,何时增加计划与工具调用能够改善任务准确性?
- RQ2RQ2: 每获得一个准确性点的边际延迟与成本是多少?
- RQ3RQ3: 模型规模与多工具编排在多工具管线中如何交互?
主要发现
| Model | Best Accuracy | Final Accuracy | Avg. Inference Time | Optimal Configuration |
|---|---|---|---|---|
| GPT-4o | 75% (Split 2) | 67.5% (Split 2 & 3) | ~317 seconds | DBpedia tools (DBpedia SPARQL, lookup, schema exploration) |
| GPT-4o-mini | 70% (Split 1) | 55% (Split 2 & 3) | ~84 seconds | Wikipedia retrieval only (Wikipedia) |
| GPT-4o NoPlanning | 65% (Split 1) | 47.5% (Split 2 & 3) | ~8 seconds | NoPlanning baseline |
| GPT-4o-mini NoPlanning | 55% (Split 1) | 35% (Split 2 & 3) | ~7 seconds | NoPlanning baseline |
- 工具增强配置在 Event-QA 的准确性上优于一次性提示,但延迟高出几个数量级。
- GPT-4o 搭配 DBpedia 在 Event-QA 上取得最高准确性(Split 2 为 75%),但每个样本约需 317 秒。
- GPT-4o-mini 搭配 Wikipedia 检索在 Event-QA 上表现具有竞争力,每个样本约 84 秒。
- 在 ChangeMyView 中,一次性提示(尤其是 GPT-4o-mini)以较低延迟(约 6 秒)实现最强的准确性(约 75–85%)。
- CMV 中的计划与多工具编排通常增加延迟且未带来稳定的准确性提升,且可能降低较小模型的表现。
- 总体而言,在部署时需要根据任务与工具的特定性来进行成本感知的模型规模与工具复杂性选择。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。