[论文解读] Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models
本文提出零-shot EoT prompting,使用进化算法为LLMs生成针对实例的逐步推理提示(CoT prompts)并进行改写,从而在不同数据集上提升推理能力。
Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks and exhibited impressive reasoning abilities by applying zero-shot Chain-of-Thought (CoT) prompting. However, due to the evolving nature of sentence prefixes during the pre-training phase, existing zero-shot CoT prompting methods that employ identical CoT prompting across all task instances may not be optimal. In this paper, we introduce a novel zero-shot prompting method that leverages evolutionary algorithms to generate diverse promptings for LLMs dynamically. Our approach involves initializing two CoT promptings, performing evolutionary operations based on LLMs to create a varied set, and utilizing the LLMs to select a suitable CoT prompting for a given problem. Additionally, a rewriting operation, guided by the selected CoT prompting, enhances the understanding of the LLMs about the problem. Extensive experiments conducted across ten reasoning datasets demonstrate the superior performance of our proposed method compared to current zero-shot CoT prompting methods on GPT-3.5-turbo and GPT-4. Moreover, in-depth analytical experiments underscore the adaptability and effectiveness of our method in various reasoning tasks.
研究动机与目标
- 动机:由于在预训练期间句子前缀的演变,需要为每个实例提供多样化的链式思考提示(CoT prompting)。
- 提出基于进化算法的程序,以生成多个CoT提示并为给定问题选择最佳者。
- 在推理前,使用选定的CoT提示对问题进行改写,以提升对问题的理解。
提出的方法
- 为每个问题初始化两个CoT提示,并应用基于LLM的交叉与变异,创建一个多样化的提示池。
- 将LLM用作进化优化器执行 T_c = LLM-Crossover(T1, T2) 与 T_m = LLM-Mutation(T_c)。
- 从生成的提示池中为当前问题选择最合适的CoT提示 T_o。
- 使用 T_o 对问题进行带有 R(Q) 的改写,然后进行包含中间步骤的推理并提取最终答案。
- 使用像 'Therefore, the answer (arabic numerals) is' 这样的触发句来提取最终答案。
- 在数据集上使用贪婪解码(temperature 0)和在适用情况下使用自一致性进行评估。

实验结果
研究问题
- RQ1通过进化操作生成的实例特定CoT提示能否比统一的零-shot CoT提示在零-shot推理上表现更好?
- RQ2在选定的CoT提示引导下对问题进行改写,是否能提升LLM的理解和推理性能?
- RQ3在算术、常识和符号任务中,EoT prompting 与零-shot CoT、PS/PS+ prompting、RE2,以及 few-shot CoT 基线相比如何?
- RQ4种群规模、初始化提示和自一致性对 EoT prompting 性能有何影响?
主要发现
- EoT prompting 在十个数据集上优于零-shot CoT、PS、PS+ 以及 RE2 prompting,特别在算术和符号推理方面。
- 在 GPT-3.5-turbo 上,EoT 在算术任务上相对于零-shot CoT 的平均提升为 2.8%,相对于 PS+ 为 2.3%。
- 在 GPT-4 上,EoT 在 AQuA、AddSub 和 SVAMP 上的准确率超过对比的零-shot 基线。
- 在若干算术数据集上,EoT prompting 已接近少样本CoT的性能。
- 消融显示改写(R)是有益的,移除交叉(C)或变异(M)通常会降低性能,尤其是在 AQuA 上。
- 自一致性在多个人工算术任务上进一步提升 EoT 的表现。
- 增加 CoT 提示的种群规模 N 通常会提高性能,但会在速度上作出权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。