QUICK REVIEW

[论文解读] How Language Model Hallucinations Can Snowball

Muru Zhang, Ofir Press|arXiv (Cornell University)|May 22, 2023

Topic Modeling被引用 71

一句话总结

本文表明语言模型的幻觉会不断放大：初始回答错误，往往随后会出现错误的解释，但在分开查询时，模型可以识别这些被放大的错误。它提供了三个问答数据集，并分析了对 ChatGPT 和 GPT-4 的检测/缓解策略。

ABSTRACT

A major risk of using language models in practical applications is their tendency to hallucinate incorrect statements. Hallucinations are often attributed to knowledge gaps in LMs, but we hypothesize that in some cases, when justifying previously generated hallucinations, LMs output false claims that they can separately recognize as incorrect. We construct three question-answering datasets where ChatGPT and GPT-4 often state an incorrect answer and offer an explanation with at least one incorrect claim. Crucially, we find that ChatGPT and GPT-4 can identify 67% and 87% of their own mistakes, respectively. We refer to this phenomenon as hallucination snowballing: an LM over-commits to early mistakes, leading to more mistakes that it otherwise would not make.

研究动机与目标

动机并描述幻觉放大作为语言模型中的一种失败模式。
用三个 QA 数据集实证证明幻觉放大的普遍性。
量化最先进模型在独立检测时识别自身被放大错误的频率。

提出的方法

自动构建三个是非问答数据集（素数性、参议员母校、图连通性），其中错误答案在解释中导致可验证的错误断言。
在零-shot 提示下，使用贪婪解码对 ChatGPT（gpt-3.5-turbo）和 GPT-4 进行评估。
提取并验证模型的错误断言，并测试模型是否能在单独的会话中识别这些断言。
评估提示（如“让我们一步步地思考”）和解码策略（温度、top-k、nucleus、束搜索）对幻觉放大的影响。
公开提供数据集和代码，以便复现和进一步研究。

实验结果

研究问题

RQ1语言模型是否经常产生伴随不正确但可测试的论证的错误答案？
RQ2当被提示在独立检查错误断言时，语言模型是否能够识别并验证自身被放大的幻觉？
RQ3提示和解码策略在减少幻觉放大方面有多大效用？
RQ4当前模型在推理任务中避免幻觉放大方面的局限性是什么？

主要发现

ChatGPT 和 GPT-4 在三组数据集上的总体问答准确率较低（平均准确率：ChatGPT ~39.87%，GPT-4 ~16.6%）。
两者在超过 95% 的情况中在首个标记（二选一 Yes/No）就给出答案，而这些初始回答往往是错误的。
ChatGPT 能识别其被放大的不正确断言的 67.37%；GPT-4 在独立验证中能识别此类断言的 87.03%。
使用逐步推理的提示在某些数据集（如 Senator Search）上提高了任务准确性，但可能引入推理错误，幻觉放大仍然处于高水平。
更高温度的解码和采样方法不能消除幻觉放大；束搜索——OpenAI API 不提供——可能有助于缓解，而回溯提示在某些情况下可能有帮助。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。