[论文解读] Universal Self-Consistency for Large Language Model Generation
USC 通过让 LLM 自选多候选中最一致的一个来实现自我一致性,使自由形式生成任务能够“免费”获得自我一致性,并在适用场景下达到或接近标准自我一致性。
Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.
研究动机与目标
- 通过消除对精确匹配答案提取的需求,将自我一致性扩展到自由形式生成任务。
- 证明基于 LLM 的一致性评估能够在多样化任务中选择高质量输出。
- 在适用任务上,展示 USC 与标准自我一致性相匹配或接近,不要求执行跟踪。
提出的方法
- 从 LLM 采样多种响应。
- 将样本拼接后提示 LLM 选择最一致者作为最终答案。
- 在数学推理、代码生成、长上下文摘要和开放式问答中应用 USC。
- 在适用情况下将 USC 与贪心、随机和标准自我一致性(SC)进行比较。
- 使用任务特定指标进行评估(如 GSM8K、MATH、BIRD-SQL、ARCADE、GovReport、SummScreen、TruthfulQA)。
- 探索样本数量和响应顺序对鲁棒性的影响,并对响应选择标准进行消融研究。

实验结果
研究问题
- RQ1单一的基于 LLM 的选择标准是否能够在多种格式(数值、开放式列表、代码和摘要)之间可靠地选出最一致的输出?
- RQ2在存在精确匹配答案的任务上,USC 是否与标准自我一致性相匹配或接近其性能?
- RQ3在无法应用 SC 的自由形式生成任务(如摘要和开放式问答)中,USC 的表现如何?
- RQ4候选响应数量和响应顺序对 USC 的性能有何影响?
主要发现
- USC 在大多数任务上通常优于贪心解码和随机抽样。
- 在数学基准 GSM8K 和 MATH 上,USC 的性能接近标准 SC,且优于贪心/随机;PaLM 2-L 在 GSM8K 和 MATH 上分别达到 90.2% 和 37.4%;gpt-3.5-turbo 分别达到 77.8% 和 38.1%。
- 在 BIRD-SQL 和 ARCADE 上,USC 达到与基于执行的 SC 相同的表现,无需执行结果(执行准确度在 BIRD-SQL 为 45.5% 对 45.6% 的 SC;ARCADE USC 30.1% 对比 29.8%/30.3% 的模糊/严格情境)。
- 在长上下文摘要任务中,USC 相较基线在 GovReport 和 SummScreen 上提升了 ROUGE-1/ROUGE-2/ROUGE-Lsum 和 BERTScore(GovReport:ROUGE-1 40.2,ROUGE-2 17.4,ROUGE-Lsum 35.1,BERTScore 62.8;SummScreen:ROUGE-1 31.7,ROUGE-2 7.8,ROUGE-Lsum 19.8,BERTScore 58.3)。
- 在 TruthfulQA 上,USC 给出在 PaLM 2-L 和 gpt-3.5-turbo 两者基线中最高的真实度和信息性分数(例如 PaLM 2-L GPT-judge 67.7 对 62.1; GPT-info 99.0 对 95.1)。
- USC 的选择在很多情况下与 SC 输出一致,但在 8 与 16 样本制 regime 下存在差异,表明 USC 是对 SC 的有效但并非完美的近似。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。