[论文解读] The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning
本文分析在少样本文本推理中,使用解释来提示大语言模型在问答与自然语言推理(NLI)任务上的效果,发现大多数模型收益有限,个别例外明显;并显示解释可能不是事实性的,但对后验校准有帮助。
Does prompting a large language model (LLM) like GPT-3 with explanations improve in-context learning? We study this question on two NLP tasks that involve reasoning over text, namely question answering and natural language inference. We test the performance of four LLMs on three textual reasoning datasets using prompts that include explanations in multiple different styles. For these tasks, we find that including explanations in the prompts for OPT, GPT-3 (davinci), and InstructGPT (text-davinci-001) only yields small to moderate accuracy improvements over standard few-show learning. However, text-davinci-002 is able to benefit more substantially. We further show that explanations generated by the LLMs may not entail the models' predictions nor be factually grounded in the input, even on simple tasks with extractive explanations. However, these flawed explanations can still be useful as a way to verify LLMs' predictions post-hoc. Through analysis in our three settings, we show that explanations judged by humans to be good--logically consistent with the input and the prediction--more likely cooccur with accurate predictions. Following these observations, we train calibrators using automatically extracted scores that assess the reliability of explanations, allowing us to improve performance post-hoc across all of our datasets.
研究动机与目标
- 评估在上下文提示中的解释是否能提升文本推理任务(问答QA与NLI)的少样本学习效果。
- 表征模型生成的解释的事实性与一致性。
- 探索使用解释来改进上下文学习的校准技术。
- 提供关于何时以及如何通过校准使用解释来帮助的实用指南。
提出的方法
- 在三个数据集上评估四个LLM(OPT-175B、GPT-3 davinci、InstructGPT text-davinci-001、text-davinci-002)。数据集包括 Synth 合成多跳问答、AdvHotpot、E-SNLI。
- 使用 Explain-then-Predict(E-P)与 Predict-then-Explain(P-E)提示风格,采用贪心解码。
- 与不含解释的标准 Few-Shot 提示进行比较。
- 分析解释的事实性(以输入为基础)和一致性(是否支持预测)。
- 使用自动化的可靠性分数训练轻量级校准器,以改进事后预测。
- 报告多组射击下的均值和标准差;在可行的情况下运行多个随机种子。
实验结果
研究问题
- RQ1提示中的解释是否在不同LLM上显著提高文本推理任务的上下文学习准确性?
- RQ2LLM 生成的解释通常是否具有事实性,还是仅与预测标签一致?
- RQ3是否可以自动评估解释的可靠性以校准预测并提高性能?
- RQ4在少样本和数据稀缺情形下,基于解释的校准器在问答和NLI任务中的表现如何?
主要发现
- 对 OPT、GPT-3 和 InstructGPT,解释带来小到中等的增益;text-davinci-002 在解释下显示出最显著的改进。
- LLM 的解释往往与预测一致,但就输入情境而言通常不具事实性。
- 解释的事实性与预测准确性相关;非事实性的解释常伴随错误预测。
- 使用自动提取的事实性分数进行校准可提升所有数据集的上下文学习,基于解释的校准器优于基于概率的基线。
- 在 AdvHotpot 上,基于解释的校准(E-P+ExplCal)在选择性回答情景下实现更高的 AUC,甚至在额外数据有限时也有效。
- 在 Synth 上,简单的事后解释事实性检查可以显著提升准确率(从 52.4% 提升到 74.8%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。