Skip to main content
QUICK REVIEW

[论文解读] Universal Self-Consistency for Large Language Model Generation

Xinyun Chen, Renat Aksitov|arXiv (Cornell University)|Nov 29, 2023
Topic Modeling被引用 9
一句话总结

USC 通过让 LLM 自选多候选中最一致的一个来实现自我一致性,使自由形式生成任务能够“免费”获得自我一致性,并在适用场景下达到或接近标准自我一致性。

ABSTRACT

Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.

研究动机与目标

  • 通过消除对精确匹配答案提取的需求,将自我一致性扩展到自由形式生成任务。
  • 证明基于 LLM 的一致性评估能够在多样化任务中选择高质量输出。
  • 在适用任务上,展示 USC 与标准自我一致性相匹配或接近,不要求执行跟踪。

提出的方法

  • 从 LLM 采样多种响应。
  • 将样本拼接后提示 LLM 选择最一致者作为最终答案。
  • 在数学推理、代码生成、长上下文摘要和开放式问答中应用 USC。
  • 在适用情况下将 USC 与贪心、随机和标准自我一致性(SC)进行比较。
  • 使用任务特定指标进行评估(如 GSM8K、MATH、BIRD-SQL、ARCADE、GovReport、SummScreen、TruthfulQA)。
  • 探索样本数量和响应顺序对鲁棒性的影响,并对响应选择标准进行消融研究。
Figure 1: Overview of the Universal Self-Consistency workflow.
Figure 1: Overview of the Universal Self-Consistency workflow.

实验结果

研究问题

  • RQ1单一的基于 LLM 的选择标准是否能够在多种格式(数值、开放式列表、代码和摘要)之间可靠地选出最一致的输出?
  • RQ2在存在精确匹配答案的任务上,USC 是否与标准自我一致性相匹配或接近其性能?
  • RQ3在无法应用 SC 的自由形式生成任务(如摘要和开放式问答)中,USC 的表现如何?
  • RQ4候选响应数量和响应顺序对 USC 的性能有何影响?

主要发现

  • USC 在大多数任务上通常优于贪心解码和随机抽样。
  • 在数学基准 GSM8K 和 MATH 上,USC 的性能接近标准 SC,且优于贪心/随机;PaLM 2-L 在 GSM8K 和 MATH 上分别达到 90.2% 和 37.4%;gpt-3.5-turbo 分别达到 77.8% 和 38.1%。
  • 在 BIRD-SQL 和 ARCADE 上,USC 达到与基于执行的 SC 相同的表现,无需执行结果(执行准确度在 BIRD-SQL 为 45.5% 对 45.6% 的 SC;ARCADE USC 30.1% 对比 29.8%/30.3% 的模糊/严格情境)。
  • 在长上下文摘要任务中,USC 相较基线在 GovReport 和 SummScreen 上提升了 ROUGE-1/ROUGE-2/ROUGE-Lsum 和 BERTScore(GovReport:ROUGE-1 40.2,ROUGE-2 17.4,ROUGE-Lsum 35.1,BERTScore 62.8;SummScreen:ROUGE-1 31.7,ROUGE-2 7.8,ROUGE-Lsum 19.8,BERTScore 58.3)。
  • 在 TruthfulQA 上,USC 给出在 PaLM 2-L 和 gpt-3.5-turbo 两者基线中最高的真实度和信息性分数(例如 PaLM 2-L GPT-judge 67.7 对 62.1; GPT-info 99.0 对 95.1)。
  • USC 的选择在很多情况下与 SC 输出一致,但在 8 与 16 样本制 regime 下存在差异,表明 USC 是对 SC 的有效但并非完美的近似。
(a)
(a)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。