[논문 리뷰] The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models
본 논문은 System Hallucination Scale(SHS)을 소개합니다. SHS는 LLM 출력에서 다섯 가지 차원에 걸친 환각 관련 행태를 평가하는 10-item, five-point Likert 계측 도구로서, 신뢰도와 구성 타당도가 검증되었으며, 참조 구현을 제공합니다.
We introduce the System Hallucination Scale (SHS), a lightweight and human-centered measurement instrument for assessing hallucination-related behavior in large language models (LLMs). Inspired by established psychometric tools such as the System Usability Scale (SUS) and the System Causability Scale (SCS), SHS enables rapid, interpretable, and domain-agnostic evaluation of factual unreliability, incoherence, misleading presentation, and responsiveness to user guidance in model-generated text. SHS is explicitly not an automatic hallucination detector or benchmark metric; instead, it captures how hallucination phenomena manifest from a user perspective under realistic interaction conditions. A real-world evaluation with 210 participants demonstrates high clarity, coherent response behavior, and construct validity, supported by statistical analysis including internal consistency (Cronbach's alpha = 0.87$) and significant inter-dimension correlations (p < 0.001$). Comparative analysis with SUS and SCS reveals complementary measurement properties, supporting SHS as a practical tool for comparative analysis, iterative system development, and deployment monitoring.
연구 동기 및 목표
- 가볍고 도메인에 구애받지 않는 도구를 제공하여 사용자 관점에서 LLM 출력의 환각 관련 행태를 평가합니다.
- SHS가 해석 가능하고 확장 가능하며 인터랙티브 평가 워크플로와 호환되도록 보장합니다.
- 심리측정적 타당도(신뢰도 및 구성 타당도)를 확립하고 실사용에서의 실행 가능성을 입증합니다.
제안 방법
- 다섯 차원에 걸친 ten items를 양의/음의 진술이 쌍으로 배치되도록 정의합니다.
- 5점 리커트 척도로 응답을 인코딩하고 차원 점수를 (positive − negative)/4로 계산합니다.
- 다섯 차원 점수의 평균으로 합산 SHS 점수를 계산합니다.
- 표준 채점 공식과 보충 자료의 참고 파이썬 구현을 제공합니다.
- SUS와 유사한 도구와의 비교 가능성을 위한 선택적 SHS 0–100 재스케일링을 제공합니다.
실험 결과
연구 질문
- RQ1간략하고 인간 중심의 도구가 LLM 출력에서 다섯 가지 구별된 환각 관련 행태 차원을 신뢰성 있게 포착할 수 있는가?
- RQ2쌍으로 구성된 항목(양수/음수) 구조가 높은 내부 일관성과 유용한 진단 신호를 제공하는가?
- RQ3현실적인 상호작용 설정에서 SHS를 관리하기에 실행 가능하며 전문가와 비전문가 평가자 모두에게 해석 가능한가?
- RQ4SHS가 기존의 사용성/원인성 척도(SUS, SCS)와 측정 특성 및 보완성 측면에서 어떤 관계를 보이는가?
주요 결과
- SHS는 높은 내부 일관성을 보였습니다(Cronbach’s alpha = 0.87, 95% CI [0.84, 0.90]).
- 차원 간 상관은 중간에서 강하게 나타났으며(r = 0.42–0.72) 통계적으로 유의합니다(p < 0.001). 다차원 구조를 지지합니다.
- 편향 반전 후 다섯 차원 모두에 대해 차원 내 항목 간 상관이 강했습니다(r = 0.65–0.79, p < 0.001). 양극성 아이템 설계를 입증합니다.
- 카이제곱 검정에서 Likert 척도의 비균일하지만 의미 있는 사용이 나타났습니다(χ2(4)=187.3, p<0.001).
- 평균 완성 시간은 4.2분(SD = 1.8) 이었고, 참가자들은 도구가 명확하고 관련성이 있으며 중단적이지 않다고 평가했습니다.
- SHS는 자동 지표가 제공하는 것 이상으로 명확한 환각 관련 실패 모드에 대한 진단적 통찰을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.