[论文解读] An Audit on the Perspectives and Challenges of Hallucinations in NLP
这篇论文审计NLP文献在大语言模型中对幻觉的定义与衡量,调查从业人员以获取观点,并提出一个伦理框架来应对社会技术系统中的幻觉。
We audit how hallucination in large language models (LLMs) is characterized in peer-reviewed literature, using a critical examination of 103 publications across NLP research. Through the examination of the literature, we identify a lack of agreement with the term `hallucination' in the field of NLP. Additionally, to compliment our audit, we conduct a survey with 171 practitioners from the field of NLP and AI to capture varying perspectives on hallucination. Our analysis calls for the necessity of explicit definitions and frameworks outlining hallucination within NLP, highlighting potential challenges, and our survey inputs provide a thematic understanding of the influence and ramifications of hallucination in society.
研究动机与目标
- 评估术语“hallucination”在NLP/AI文献中的定义与框架。
- 确定用于定义NLP任务中幻觉的常见框架和属性。
- 审视语言模型中幻觉的社会技术与社会层面。
- 评估用于量化幻觉的普遍度量及其局限性。
- 通过调查获取从业者对幻觉的观点,以便为定义与伦理提供信息。
提出的方法
- 审核103篇同行评审的NLP论文中的幻觉定义与框架。
- 按主题将定义归类为七个NLP子领域。
- 审核论文是否承认现有框架和社会技术层面。
- 将幻觉评估度量归类为四个主题(人类、数据驱动、统计、混合)。
- 进行从业者调查(可用样本n=171),探讨熟悉度、频率和幻觉定义。
- 汇总发现,提出未来工作的伦理框架。
实验结果
研究问题
- RQ1RQ1:在NLG发表文章中,用于解释幻觉的定义和常见框架是什么?
- RQ2RQ2:研究人员对幻觉的当前理解是什么,他们在工作中如何遇到它?
主要发现
- 103篇论文中仅有42.7%定义幻觉,27%明确引用了既定框架。
- 在定义幻觉的论文中,57.3%不依赖现有框架。
- 测量幻觉的度量多样,35.2%使用统计度量,28.4%采用混合方法;数据驱动度量占26.1%,人工评估10.2%。
- 少数(103篇中的3篇)承认幻觉的社会技术维度,但无人采用该框架。
- 从业者调查(n=171)显示日常广泛使用LLMs(至少每天67.28%;总是使用20.37%),并且46.91%偶尔遇到幻觉,29.01%频繁遇到。
- 大多数受访者认为幻觉是LLMs的一个弱点(超过92%)。
- 约54.32%受访者偏好“hallucination”这一术语或没有替代选项;40.46%提议使用“Fabrication”作为替代;有些人偏好“Confabulations”。
- 一小部分但显著的比例(约10%)看到在讲故事和图像生成中幻觉的潜在积极/创造性方面。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。