[论文解读] Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
对大型语言模型幻觉的全面综述,涵盖定义、基准、来源、评估方法,以及在模型生命周期中的缓解。
While large language models (LLMs) have demonstrated remarkable capabilities across a range of downstream tasks, a significant concern revolves around their propensity to exhibit hallucinations: LLMs occasionally generate content that diverges from the user input, contradicts previously generated context, or misaligns with established world knowledge. This phenomenon poses a substantial challenge to the reliability of LLMs in real-world scenarios. In this paper, we survey recent efforts on the detection, explanation, and mitigation of hallucination, with an emphasis on the unique challenges posed by LLMs. We present taxonomies of the LLM hallucination phenomena and evaluation benchmarks, analyze existing approaches aiming at mitigating LLM hallucination, and discuss potential directions for future research.
研究动机与目标
- 定义LLM幻觉并将其分为三种主要类型(输入冲突、上下文冲突、事实冲突)。
- 总结用于研究LLM幻觉的评估基准和指标。
- 识别LLM生命周期中幻觉的来源,并讨论缓解策略。
- 回顾在不同阶段(预训练、微调、RLHF、推理)中的缓解方法,并概述未来方向。
提出的方法
- 给出含有示例的LLM幻觉类型分类(输入冲突、上下文冲突、事实冲突)。
- 调查具有代表性的基准和任务格式(生成型与判别型)。
- 从预训练数据、知识记忆/推理的局限、对齐,以及生成策略等角度分析幻觉的来源。
- 按LLM生命周期中的时机对缓解措施进行分类(预训练、对齐/微调、推理)。
- 讨论评估挑战,强调需要稳健、自动化的基准。
实验结果
研究问题
- RQ1LLM输出中的典型幻觉类型有哪些,如何检测?
- RQ2哪些基准和指标能够有效评估跨任务和格式的LLM幻觉?
- RQ3LLMs幻觉的主要来源是什么,如何在整个模型生命周期中有效应用缓解?
主要发现
- LLMs中的幻觉分为输入冲突、上下文冲突和事实冲突三种类型,并附有示例和讨论。
- 存在一系列用于评估幻觉的基准,覆盖 QA、TI 和文本补全任务的生成型和判别型格式。
- 幻觉来源包括预训练数据质量、知识记忆/推理的局限、过度自信、对齐偏差,以及如标记级优化等生成策略。
- 在每个生命周期阶段讨论缓解策略,强调数据挑选、对齐改进,以及提示/推理阶段的技术。
- 该综述强调由于规模、多样性和自动评估的困难,LLM幻觉的独特挑战,并指出开源资源以支持持续研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。