[論文レビュー] Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations
tldr: 本研究は、人間が本物の内容を最も正確と評価し、軽微な幻覚を次に、重大な幻覚を最も低く評価すること、警告が幻覚の認識精度の評価を低下させる一方で本物の内容の認識精度には影響しないこと、警告は幻覚に対する嫌悪を高めるが好意的評価(いいね)やシェアには影響しないことを示している。
The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations'. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Participants ranked content as truthful in the order of genuine, minor hallucination, and major hallucination, and user engagement behaviors mirrored this pattern. More importantly, we observed that warning improved the detection of hallucination without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations. All survey materials, demographic questions, and post-session questions are available at: https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials
研究の動機と目的
- 未 trained evaluators perceive accuracy of LLM-generated content with varying degrees of hallucination (genuine, minor, major).
- 警告が genuine と hallucinated content の perceived accuracy と engagement (like, dislike, share) に与える影響を調べる。
- 警告が engagement 行動を変えるかどうか、幻覚レベルによって効果が異なるかを調査する。
提案手法
- TruthfulQA の 54 問題から GPT-3.5-Turbo を用いて三つの回答タイプ( genuine, minor hallucination, major hallucination )を生成する。
- 2x3 の混合設計(警告 vs. コントロール)を用い、各グループで 18 件をラテン方格で提示する。
- 正確さの評価を 5 段階で測定し、正確さの評価前にエンゲージメント行動(いいね、 dislikes、シェア)を収集する。
- WARN 条件に警告タグを含む:「The responses may contain inaccurate information about people, places, or facts.」
- 419 名の Prolific 参加者(米国在住)を募集し、効果と相互作用を検定する ANOVA を実施する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 未訓練の評価者は genuine vs. minor vs. major の幻覚の正確性をどう認識し、警告はこれらの認識に影響を与えるか。
- RQ2RQ2: 未訓練の評価者は genuine vs. minor vs. major の幻覚に対してどのようにエンゲージメント(いいね、 dislikes、シェア)を行い、警告はこれらのエンゲージメントパターンに影響するか。
主な発見
| 指標 | F統計量 | p値 | 部分 η² |
|---|---|---|---|
| Accuracy | 595.1 | < .001 | 0.59 |
| Like | 326.7 | < .001 | 0.44 |
| Dislike | 356.7 | < .001 | 0.46 |
| Share | 7.47 | < .001 | 0.02 |
- 内容は正確だと認識される順序: genuine > minor hallucination > major hallucination。
- 警告は minor および major な幻覚の認識精度を低下させるが、 genuine content には影響しない。
- 警告は幻覚内容に対する dislikes を増やすが、 likes や shares には有意な影響を与えない。
- エンゲージメントは正確さに従う: genuine content のほうが like と share が高く、 minor/major 幻覚では徐々にエンゲージメントが減少。
- dislike は幻覚、特に major なものほど高く、認識の不正確さと相関する。
- 認識精度とエンゲージメントの相関は、幻覚レベルが高くなるほど強くなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。