QUICK REVIEW

[论文解读] Universal Self-Consistency for Large Language Model Generation

Xinyun Chen, Renat Aksitov|arXiv (Cornell University)|Nov 29, 2023

Topic Modeling被引用 9

一句话总结

USC 通过让 LLM 自选多候选中最一致的一个来实现自我一致性，使自由形式生成任务能够“免费”获得自我一致性，并在适用场景下达到或接近标准自我一致性。

ABSTRACT

Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.

研究动机与目标

通过消除对精确匹配答案提取的需求，将自我一致性扩展到自由形式生成任务。
证明基于 LLM 的一致性评估能够在多样化任务中选择高质量输出。
在适用任务上，展示 USC 与标准自我一致性相匹配或接近，不要求执行跟踪。

提出的方法

从 LLM 采样多种响应。
将样本拼接后提示 LLM 选择最一致者作为最终答案。
在数学推理、代码生成、长上下文摘要和开放式问答中应用 USC。
在适用情况下将 USC 与贪心、随机和标准自我一致性（SC）进行比较。
使用任务特定指标进行评估（如 GSM8K、MATH、BIRD-SQL、ARCADE、GovReport、SummScreen、TruthfulQA）。
探索样本数量和响应顺序对鲁棒性的影响，并对响应选择标准进行消融研究。

Figure 1: Overview of the Universal Self-Consistency workflow.

实验结果

研究问题

RQ1单一的基于 LLM 的选择标准是否能够在多种格式（数值、开放式列表、代码和摘要）之间可靠地选出最一致的输出？
RQ2在存在精确匹配答案的任务上，USC 是否与标准自我一致性相匹配或接近其性能？
RQ3在无法应用 SC 的自由形式生成任务（如摘要和开放式问答）中，USC 的表现如何？
RQ4候选响应数量和响应顺序对 USC 的性能有何影响？

主要发现

USC 在大多数任务上通常优于贪心解码和随机抽样。
在数学基准 GSM8K 和 MATH 上，USC 的性能接近标准 SC，且优于贪心/随机；PaLM 2-L 在 GSM8K 和 MATH 上分别达到 90.2% 和 37.4%；gpt-3.5-turbo 分别达到 77.8% 和 38.1%。
在 BIRD-SQL 和 ARCADE 上，USC 达到与基于执行的 SC 相同的表现，无需执行结果（执行准确度在 BIRD-SQL 为 45.5% 对 45.6% 的 SC；ARCADE USC 30.1% 对比 29.8%/30.3% 的模糊/严格情境）。
在长上下文摘要任务中，USC 相较基线在 GovReport 和 SummScreen 上提升了 ROUGE-1/ROUGE-2/ROUGE-Lsum 和 BERTScore（GovReport：ROUGE-1 40.2，ROUGE-2 17.4，ROUGE-Lsum 35.1，BERTScore 62.8；SummScreen：ROUGE-1 31.7，ROUGE-2 7.8，ROUGE-Lsum 19.8，BERTScore 58.3）。
在 TruthfulQA 上，USC 给出在 PaLM 2-L 和 gpt-3.5-turbo 两者基线中最高的真实度和信息性分数（例如 PaLM 2-L GPT-judge 67.7 对 62.1； GPT-info 99.0 对 95.1）。
USC 的选择在很多情况下与 SC 输出一致，但在 8 与 16 样本制 regime 下存在差异，表明 USC 是对 SC 的有效但并非完美的近似。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。