Skip to main content
QUICK REVIEW

[论文解读] SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

Ning Miao, Yee Whye Teh|arXiv (Cornell University)|Aug 1, 2023
Topic Modeling被引用 11
一句话总结

SelfCheck 使用零样本(zero-shot)、多阶段检查来验证大型语言模型推理的每一步,然后对多个解答进行加权投票,以在 GSM8K、MathQA 和 MATH 上在不使用外部数据或微调的情况下提高最终准确性。

ABSTRACT

The recent progress in large language models (LLMs), especially the invention of chain-of-thought prompting, has made it possible to automatically answer questions by stepwise reasoning. However, when faced with more complicated problems that require non-linear thinking, even the strongest LLMs make mistakes. To address this, we explore whether LLMs are able to recognize errors in their own step-by-step reasoning, without resorting to external resources. To this end, we propose SelfCheck, a general-purpose zero-shot verification schema for recognizing such errors. We then use the results of these checks to improve question-answering performance by conducting weighted voting on multiple solutions to the question. We test SelfCheck on three datasets (GSM8K, MathQA, and MATH) and find that it successfully recognizes errors and, in turn, increases final answer accuracies.

研究动机与目标

  • 强调需要在标准链式思维提示之外实现可靠的多步推理。
  • 提出一个零样本自检架构,能够在不依赖外部资源的情况下识别单步中的错误。
  • 展示如何将逐步检查整合成一个置信度分数,以通过加权投票改进整体答案。
  • 展示在多个数学数据集上的有效性,并通过消融研究来证明设计选择的合理性。

提出的方法

  • 将 SelfCheck 作为一个零样本检查器介绍,它在前一步的基础上评估每一步。
  • 将步骤检查分解为四个阶段:目标提取、信息收集、步骤再生成和结果比较。
  • 使用收集到的信息再生成一个独立的替代步骤,并将其与原始步骤进行比较以评估正确性。
  • 从逐步检查计算总体置信度分数 w,以实现跨多个解的加权投票。
Figure 1: Example of using SelfCheck, focusing on the checking of a particular step (Step 5). To check the correctness of the step, SelfCheck goes through 4 stages. First, in the target extraction stage, it figures out that the main purpose of Step 5 is to complete the square. In the information col
Figure 1: Example of using SelfCheck, focusing on the checking of a particular step (Step 5). To check the correctness of the step, SelfCheck goes through 4 stages. First, in the target extraction stage, it figures out that the main purpose of Step 5 is to complete the square. In the information col

实验结果

研究问题

  • RQ1零样本的基于 LLM 的检查器是否能够在不使用外部数据的情况下识别其自身逐步推理中的错误?
  • RQ2重新生成一个步骤并将其与原始步骤进行比较是否比直接检查更可靠?
  • RQ3逐解的置信分数是否能通过跨多个解的加权投票来提高最终答案的准确性?

主要发现

  • 与简单多数投票相比,SelfCheck 在不同数据集和设定下提高了最终答案的准确率。
  • 该方法在按置信度过滤时,产生有意义的置信度估计,在 GSM8K、MathQA 和 MATH* 上分别将错误解减少 9%、22.8%、16.2%。
  • 在消融实验中,使用“再生成与比较”的步骤检查优于全局或单阶段检查。
  • 不同的生成器/检查器对(包括更便宜的 LLMs)仍能带来改进,说明生成与检查之间的去相关性益处。
  • 集成更多解时,SelfCheck 仍然优于多数投票,且随着集成规模的增大,收益持续。
Figure 4: True positive rates (TP) vs. false positive rates (FP) as classification threshold, $t$ , is varied.
Figure 4: True positive rates (TP) vs. false positive rates (FP) as classification threshold, $t$ , is varied.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。