[论文解读] Rationale-Augmented Ensembles in Language Models
本文提出了一种统一的理据增强集成框架,该框架对多个模型生成的理据进行采样和聚合,以在无需微调的情况下在许多NLP任务的少样本上下文学习中鲁棒提升,同时增强可解释性。
Recent research has shown that rationales, or step-by-step chains of thought, can be used to improve performance in multi-step reasoning tasks. We reconsider rationale-augmented prompting for few-shot in-context learning, where (input -> output) prompts are expanded to (input, rationale -> output) prompts. For rationale-augmented prompting we demonstrate how existing approaches, which rely on manual prompt engineering, are subject to sub-optimal rationales that may harm performance. To mitigate this brittleness, we propose a unified framework of rationale-augmented ensembles, where we identify rationale sampling in the output space as the key component to robustly improve performance. This framework is general and can easily be extended to common natural language processing tasks, even those that do not traditionally leverage intermediate steps, such as question answering, word sense disambiguation, and sentiment analysis. We demonstrate that rationale-augmented ensembles achieve more accurate and interpretable results than existing prompting approaches--including standard prompting without rationales and rationale-based chain-of-thought prompting--while simultaneously improving interpretability of model predictions through the associated rationales.
研究动机与目标
- 评估为何理据在少样本提示下可能损害或提升性能。
- 提出一个统一框架,通过集成稳健地发挥理据的作用。
- 表明在输出空间对理据进行采样可以提升跨任务与跨模型的结果。
- 证明该方法可应用于广泛的NLP任务,包括非推理任务,而无需额外训练。
提出的方法
- 系统性地研究在少样本提示下理据质量,覆盖诸如 e-SNLI、BoolQ、WiC、SST-2 等任务。
- 引入通过从模型解码器采样对理据进行边缘化的理据增强集成。
- 将集成方法分为自一致性/self-consistency、提示顺序集成、输入理据集成三类。
- 显示在输出空间进行采样是性能提升的关键驱动因素。
- 在不进行微调的情况下,展示使用 PaLM-540B 和 GPT-3 在多项任务中的改进。
- 通过在输出旁提供理据来提升可解释性。
实验结果
研究问题
- RQ1为何理据在少样本学习中可能损害性能?
- RQ2如何可靠地利用理据来提升通用NLP任务的性能?
- RQ3统一的集成框架对理据质量和提示变体是否鲁棒?
- RQ4基于理据的增强集成是否能提升诸如问答、情感分析和复述识别等非传统推理任务?
主要发现
- 在输出空间对理据进行采样在多任务和多模型中持续提升任务性能。
- 在大多数任务中,理据增强集成优于标准提示和先前的基于理据的提示。
- 人工理据可能并非最佳;集成可以通过模型生成的理据恢复或超越性能。
- 该方法通过在预测时提供理据来实现更好的可解释性。
- 结果在不同模型规模(PaLM-540B 和 GPT-3)和评估设置(少样本、零样本推理(CoT))下具有鲁棒性。
- 该框架甚至适用于中间步骤传统上并非必须的任务,如 SST-2、WiC 和 QQP。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。