Skip to main content
QUICK REVIEW

[论文解读] Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations

Mahjabin Nahar, Haeseung Seo|arXiv (Cornell University)|Apr 4, 2024
Risk Perception and Management被引用 11
一句话总结

该研究表明,人类将真实内容排序为最准确,其次是小幅幻觉,重大幻觉最不准确,并且警告会降低对幻觉的感知准确度而不影响对真实内容的感知;警告也会增加不喜欢,但不影响喜欢或分享。

ABSTRACT

The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations'. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Participants ranked content as truthful in the order of genuine, minor hallucination, and major hallucination, and user engagement behaviors mirrored this pattern. More importantly, we observed that warning improved the detection of hallucination without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations. All survey materials, demographic questions, and post-session questions are available at: https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials

研究动机与目标

  • 理解未经过训练的评估者在不同幻觉程度(真实、小幅幻觉、重大幻觉)下对LLM生成内容的准确性有何感知。
  • 考察警告对真实与幻觉内容的感知准确性以及参与度(点赞、点踩、分享)的影响。
  • 探究警告是否会改变参与行为,以及不同幻觉水平下的效应是否存在差异。

提出的方法

  • 为 TruthfulQA 的54道题目使用 GPT-3.5-Turbo 生成三种回答类型(真实、小幅幻觉、重大幻觉)。
  • 使用2×3混合设计(警告 vs. 控制)并以拉丁方排列将每组呈现18项。
  • 在给出准确性评定前,先测量5分制的感知准确性并收集参与行为(点赞、点踩、分享)。
  • 在 WARN 条件中包含一个警告标签:“回答可能包含关于人物、地点或事实的不准确信息。”
  • 招募419名 Prolific 参与者(美国基地),并进行ANOVA以检验效应及交互作用。

实验结果

研究问题

  • RQ1RQ1: 未经过训练的评估者如何感知真实、小幅幻觉和重大幻觉的准确性,警告是否会影响这些感知?
  • RQ2RQ2: 未经过训练的评估者对真实、小幅幻觉和重大幻觉的参与(点赞、点踩、分享)有何表现,警告是否会影响这些参与模式?

主要发现

MetricF-statisticp-valuePartial eta-squared
Accuracy595.1< .0010.59
Like326.7< .0010.44
Dislike356.7< .0010.46
Share7.47< .0010.02
  • 内容的感知准确性排序为:真实 > 小幅幻觉 > 重大幻觉。
  • 警告降低对小幅幻觉和重大幻觉的感知准确性,但不影响真实内容。
  • 警告会提高对幻觉内容的点踩,但对喜欢或分享没有显著影响。
  • 参与度与准确性一致:真实内容的点赞和分享更高,小幅和重大幻觉的参与度逐渐降低。
  • 对幻觉的点踩较高,尤其是重大幻觉,与感知不准确相关。
  • 感知准确性与参与度之间的相关性在幻觉水平越高时越强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。