[论文解读] MathPrompter: Mathematical Reasoning using Large Language Models
MathPrompter 使用零-shot 链式推理结合多路径代数和 Python 解决路径、交叉检查与共识验证,以提升大语言模型的算术推理准确性,在 MultiArith 上以 175B 模型达到 92.5% 的表现。
Large Language Models (LLMs) have limited performance when solving arithmetic reasoning tasks and often provide incorrect answers. Unlike natural language understanding, math problems typically have a single correct answer, making the task of generating accurate solutions more challenging for LLMs. To the best of our knowledge, we are not aware of any LLMs that indicate their level of confidence in their responses which fuels a trust deficit in these models impeding their adoption. To address this deficiency, we propose `MathPrompter', a technique that improves performance of LLMs on arithmetic problems along with increased reliance in the predictions. MathPrompter uses the Zero-shot chain-of-thought prompting technique to generate multiple Algebraic expressions or Python functions to solve the same math problem in different ways and thereby raise the confidence level in the output results. This is in contrast to other prompt based CoT methods, where there is no check on the validity of the intermediate steps followed. Our technique improves over state-of-the-art on the MultiArith dataset ($78.7\% ightarrow92.5\%$) evaluated using 175B parameter GPT-based LLM.
研究动机与目标
- 通过对中间步骤增加验证来提升大语言模型在数学解题中的可信度与可靠性。
- 在算术推理任务上提高准确性,超越标准的零-shot 提示。
- 引入受到人类问题解决启发的多解与基于共识的验证流程。
- 在基准数据集上展示与最先进的零-shot 与少样本提示方法的竞争力。
提出的方法
- 将每个数学问题转换为代数模板,将数字替换为变量(Qt)。
- 生成多条求解提示(代数型和 Python 式)以产生不同的分析解。
- 在随机变量赋值下求值并寻求共识以验证结果。
- 若未达成共识,则重复求解与验证步骤;在多次尝试中报告最常出现的最终答案。
- 使用 Python 的 eval() 计算并比较代数解与 Python 式解的结果以得到最终共识。
实验结果
研究问题
- RQ1是否可以通过多路径求解与验证来增强零-shot 链式推理以提高算术准确性?
- RQ2对中间步骤进行交叉检查并使用多种表示是否提高了大语言模型在数学任务中的可靠性?
- RQ3MathPrompter 的性能与 MultiArith 上的零-shot 与少-shot CoT 基线相比如何?
- RQ4基于共识的最终确定在多次随机试验中是否有效?
主要发现
| 模型 | 准确性 |
|---|---|
| Zero-shot | 17.7% |
| Zero-shot (PaLM 540B) | 25.5% |
| Zero-shot-CoT | 78.7% |
| Zero-shot-CoT (PaLM 540B) | 66.1% |
| Zero-shot-CoT + self consistency (PaLM 540B) | 89.0% |
| Zero-shot-CoT ( MathPrompter ) | 92.5% |
| Few-Shot (2 samples) | 33.7% |
| Few-Shot (8 samples) | 33.8% |
| Few-Shot-CoT (2 samples) | 84.8% |
| Few-Shot-CoT (4 samples) | 90.5% |
| Few-Shot-CoT (8 samples) | 93.0% |
| Zero-Plus-Few-Shot-CoT (8 samples) | 92.8% |
- MathPrompter 在 MultiArith 上达到 92.5% 的准确率,优于 Zero-shot-CoT 基线。
- 它匹配或超过具有 540B 参数的 Zero-shot-CoT 的性能,以及可比的少-shot-CoT 方法。
- 在各变体中,该方法相较 Kojima 等人(2022)报道的 78.7% 的最先进 Zero-shot-CoT(175B)有所提升。
- 该方法依赖于同时生成 Algebraic 与 Pythonic 解决方案,并利用多次随机评估的共识来选择最终答案。
- 仍存在代数解与 Python 式解均一致但结果错误的情况,突出显示了仍存在的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。