Skip to main content
QUICK REVIEW

[论文解读] Least-to-Most Prompting Enables Complex Reasoning in Large Language Models

Denny Zhou, Nathanael Schärli|arXiv (Cornell University)|May 21, 2022
Topic Modeling被引用 317
一句话总结

从少到多提示将困难问题分解为一系列更易解决的子问题,并按顺序逐步解决,从而使大型语言模型在无需训练的情况下推广到更难的任务。在符号操作、组合泛化和数学推理基准上,它优于标准提示和链式思维提示。

ABSTRACT

Chain-of-thought prompting has demonstrated remarkable performance on various natural language reasoning tasks. However, it tends to perform poorly on tasks which requires solving problems harder than the exemplars shown in the prompts. To overcome this challenge of easy-to-hard generalization, we propose a novel prompting strategy, least-to-most prompting. The key idea in this strategy is to break down a complex problem into a series of simpler subproblems and then solve them in sequence. Solving each subproblem is facilitated by the answers to previously solved subproblems. Our experimental results on tasks related to symbolic manipulation, compositional generalization, and math reasoning reveal that least-to-most prompting is capable of generalizing to more difficult problems than those seen in the prompts. A notable finding is that when the GPT-3 code-davinci-002 model is used with least-to-most prompting, it can solve the compositional generalization benchmark SCAN in any split (including length split) with an accuracy of at least 99% using just 14 exemplars, compared to only 16% accuracy with chain-of-thought prompting. This is particularly noteworthy because neural-symbolic models in the literature that specialize in solving SCAN are trained on the entire training set containing over 15,000 examples. We have included prompts for all the tasks in the Appendix.

研究动机与目标

  • 促进大语言模型向易到难的泛化,并解决链式思维提示的局限性。
  • 提出一个两阶段的提示框架,将问题分解后再按顺序求解子问题。
  • 证明自下而上提示在符号操作、SCAN 组合泛化以及数学推理数据集上均能实现对更难问题的泛化。

提出的方法

  • 两阶段提示: (i) 分解提示展示将问题分解为子问题; (ii) 子问题求解提示展示使用先前答案进行顺序求解。
  • 提示为少样本;无需模型训练或微调。
  • 提示可与链式推理或自一致解码结合使用,也可独立使用。
  • 提示旨在教模型利用先前已解决的子问题输出来构建解答(基例和递归步)。
  • 在多任务上的评估包括符号操作(末字母拼接)、用于组合泛化的 SCAN,以及数学推理(GSM8K 和 DROP)。

实验结果

研究问题

  • RQ1自下而上提示是否能够使大语言模型解决比提示中所示更困难的问题?
  • RQ2将问题分解为子问题是否提高了在符号、组合和数学推理任务上的泛化?
  • RQ3在这些领域中,自下而上提示与链式推理提示相比如何?
  • RQ4单靠提示(不进行训练)在如 SCAN 与 GSM8K/DROP 等基准测试上能够达到多高的准确率?

主要发现

L标准提示链式推理自底向上提示
40.084.294.0
60.069.288.4
80.050.283.0
100.039.876.4
120.031.874.0
  • 在末字母拼接任务中,自下而上提示的准确率高于链式推理提示,尤其随着列表长度增加。
  • 在 SCAN 上,使用自下而上提示的 code-davinci-002 在长度拆分下达到 99.7% 的准确率,显著优于标准提示和链式推理提示。
  • 在 GSM8K 和 DROP 上,自下而上提示优于链式推理提示,在 DROP 上有显著提升,在 GSM8K 也有可观提升,尤其是需要多步的问题。
  • 基于分解的提示使得在不进行模型训练的情况下也能解决比演示更长或更复杂的问题。
  • 错误分析显示大多数失败原因是因为拼接/步驟解释,而非子问题解答本身有误。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。