QUICK REVIEW

[论文解读] Boosted Prompt Ensembles for Large Language Models

Silviu Pitis, Michael R. Zhang|arXiv (Cornell University)|Apr 12, 2023

Topic Modeling被引用 11

一句话总结

论文提出 Boosted Prompting，一种阶段式集成方法，构建一组 few-shot 提示来覆盖问题空间中的困难区域，在使用训练时和测试时变体的若干推理基准上，优于单提示和袋装集成。

ABSTRACT

Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a ``boosted prompt ensemble''. The few shot examples for each prompt are chosen in a stepwise fashion to be ``hard'' examples on which the previous step's ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm.

研究动机与目标

推动在不需要额外训练的情况下提升少样本提示的性能。
开发一种阶段式、受提升启发的方法来构建多样化的提示集合。
在多个推理基准上评估训练时和测试时的提升。
分析对初始提示、集成规模和注释级别的敏感性。
提供关于在实际中何时以及如何使用增强提示的经验性指导。

提出的方法

提出增强提示：通过选择当前集合不确定的“硬”问题，迭代地向提示集合中添加。
使用一个小型带标签的数据集（训练时）或模型预测（测试时）来识别信息量高的困难示例并生成新的提示。
通过选择导致正确答案的推理路径来构建提示，强调更复杂的推理步骤。
通过对每个提示的多条连锁思维生成结果进行多数投票来组合输出（实验中为 100 个样本）。
两种变体：使用真实标签的训练时提升，以及使用模型预测并采用基于一致性的正确性判定的测试时提升。

实验结果

研究问题

RQ1增强提示是否在具有挑战性的推理任务中优于单提示和袋装提示集合？
RQ2在注释级别、初始提示质量，以及集合配置（n 个提示、每个提示 m 条路径）下，性能如何变化？
RQ3测试时提升是否能够适应分布偏移并作为在线提示空间探索的手段？
RQ4使用更复杂的思维链和对集合成员进行加权的影响是什么？
RQ5基模型的选择如何影响增强提示的相对收益？

主要发现

在小规模训练集下，增强提示在 AQUA、GSM8K、MMLU570、CMATH420 和 SVAMP 上持续优于自一致性基线。
训练时提升通常优于测试时提升，尤其在可获得真实标签时，尽管测试时提升在分布偏移下显示潜力。
在固定计算预算内，增大集合规模或每个提示的样本数量只带来边际收益。
使用更复杂的思维链作为候选路径比随机选择有助于提升性能。
测试时提升设定过高的“充分一致性”阈值会降低提示质量，表明一致性与提示信息量之间的权衡。
使用更强基模型（如 Davinci、GPT-3.5）的增强提示能带来收益，而较弱的模型（Curie）可能收益有限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。