Skip to main content
QUICK REVIEW

[论文解读] The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Heimo Müller, Dominik Steiger|arXiv (Cornell University)|Feb 13, 2026
Mental Health via Writing被引用 0
一句话总结

该论文引入系统幻觉量表(SHS),这是一个10项、五点李克特量表的工具,用于评估大语言模型输出在五个维度上的幻觉相关行为,具备经过验证的可靠性和结构一致性,并提供参考实现。

ABSTRACT

We introduce the System Hallucination Scale (SHS), a lightweight and human-centered measurement instrument for assessing hallucination-related behavior in large language models (LLMs). Inspired by established psychometric tools such as the System Usability Scale (SUS) and the System Causability Scale (SCS), SHS enables rapid, interpretable, and domain-agnostic evaluation of factual unreliability, incoherence, misleading presentation, and responsiveness to user guidance in model-generated text. SHS is explicitly not an automatic hallucination detector or benchmark metric; instead, it captures how hallucination phenomena manifest from a user perspective under realistic interaction conditions. A real-world evaluation with 210 participants demonstrates high clarity, coherent response behavior, and construct validity, supported by statistical analysis including internal consistency (Cronbach's alpha = 0.87$) and significant inter-dimension correlations (p < 0.001$). Comparative analysis with SUS and SCS reveals complementary measurement properties, supporting SHS as a practical tool for comparative analysis, iterative system development, and deployment monitoring.

研究动机与目标

  • 提供一个轻量级、与领域无关的工具,从用户角度评估大语言模型输出中的幻觉相关行为。
  • 确保 SHS 可解释、可扩展,且兼容交互式评估工作流。
  • 建立心理测量学有效性(可靠性和构念效度),并在真实使用中证明可行性。

提出的方法

  • 在五个维度上定义十个条目,采用成对的肯定/否定措辞。
  • responses 编码为五点李克特量表,并将维度分数计算为(positive − negative)/4。
  • 将五个维度分数的均值作为 SHS 的聚合分数。
  • 在补充材料中提供规范的评分公式和参考 Python 实现。
  • 提供可选的 SHS 0–100 重标度,以便与 SUS 等工具可比。

实验结果

研究问题

  • RQ1简短的人本工具是否能在大语言模型输出中可靠捕捉五个不同的幻觉相关行为维度?
  • RQ2成对条目(正向/负向)结构是否具有较高的内部一致性和有用的诊断信号?
  • RQ3SHS 在现实互动设置中是否可行,且对专家和非专家评估者均可解释?
  • RQ4SHS 与已建立的可用性/可用性相关量表(SUS、SCS)在测量属性和互补性方面有何关系?

主要发现

  • SHS 展现出较高的内部一致性(Cronbach 的 α = 0.87,95% CI [0.84, 0.90])。
  • 维度间相关性中等偏强(r = 0.42–0.72),且在统计上显著(p < 0.001),支持多维结构。
  • 在 polarity 反转后,五个维度的维内条目间相关性强(r = 0.65–0.79,p < 0.001),验证了双向条目设计。
  • 卡方检验表明李克特量表的使用具有非均匀但有意义的模式(χ2(4)=187.3, p<0.001)。
  • 平均完成时间为 4.2 分钟(SD = 1.8),参与者认为该量表清晰、相关且不干扰任务。
  • SHS 提供对不同幻觉相关失误模式的诊断性洞察,超出自动化指标所能提供的范围。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。