[论文解读] To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
一项元分析和实验表明 Chain-of-Thought (CoT) 提示对数学和符号推理有帮助;对于非符号任务,CoT 提供的益处很少甚至没有,且可能被工具增强的求解所超越。本研究主张有选择地使用 CoT,并呼吁开发在提示之外利用中间计算的替代方法。
Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
研究动机与目标
- 评估在广泛任务和模型中,基于提示的 CoT 何时能改善性能。
- 通过文献元分析和新的实验,量化 CoT 在符号、数学、逻辑和非符号领域的影响。
- 解耦计划与执行,理解 CoT 在符号推理中在哪些方面增加价值。
- 将 CoT 与工具增强方法进行比较,以确定相对优势和局限。
- 提出超越基于提示的 CoT 的方向,以更有效地利用中间计算。
提出的方法
- 对 1,218 对 CoT 与直接回答比较进行系统性元分析,来自 110 篇论文(14 种模型,264 个数据集),覆盖 2024 年 ICLR/NAACL/EACL 会场。
- 将任务分为 14 类(如符号/算法、数学、逻辑推理、百科知识、混合数据集等)。
- 在 20 个数据集上对 14 种当代大型语言模型进行零样本和少量样本提示的规模化实验。
- 评估包括零样本 CoT 与直接提示,关注输出中是否包含等号(符号运算)。
- 通过创建符号化计划并测试 Plan+Direct Solver、Plan+CoT Solver、Plan+Tool Solver 配置来研究计划与执行。

实验结果
研究问题
- RQ1哪些任务类型(符号、数学、逻辑、非符号)从 Chain-of-Thought 提示中受益?
- RQ2CoT 在不同数据集和模型上的性能提升程度如何,与直接提示相比如何?
- RQ3将计划与执行分离(并使用外部工具)是否能够在符号推理任务上超越 CoT?
- RQ4就推理成本而言,CoT 相较于替代方法是否具成本效益?
- RQ5推动超越基于提示的 CoT,采用更整合的推理范式有哪些含义?
主要发现
- CoT 主要在数学、符号以及逻辑推理任务上取得显著提升。
- 在文献与实验中,非符号任务显示对 CoT 的收益很小甚至没有;对许多此类任务,直接提示表现相当。
- 在 MMLU 上,最多 95% 的 CoT 提升来自包含等号的问题或输出,即涉及符号推理。
- 将计划与执行分离显示 CoT 改善执行,但外部符号求解器在计划和执行上都可能超越 CoT。
- 工具增强求解(Plan+Tool Solver)在符号领域常常超越 Plan+CoT,提示在没有外部工具时 CoT 的局限性。
- 总体而言,CoT 可以具有选择性和成本节省,推动超越基于提示的 CoT 的方法,利用中间计算。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。