QUICK REVIEW

[논문 리뷰] Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations

Mahjabin Nahar, Haeseung Seo|arXiv (Cornell University)|2024. 04. 04.

Risk Perception and Management인용 수 11

한 줄 요약

그 연구는 인간이 진짜 콘텐츠를 가장 정확하다고 평가하고, 소수의 환각은 그다음으로, 대다수의 환각은 가장 낮다고 평가하며, 경고가 환각의 인지 정확성을 감소시키되 진짜 콘텐츠의 인지 정확성은 해치지 않는다는 것과, 경고가 인지 정확도를 낮추는 효과를 보이지만 진짜 콘텐츠에 대한 인상은 유지되며, 경고는 불호를 증가시키지만 좋아요나 공유에는 영향을 주지 않는다는 것을 보여준다.

ABSTRACT

The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations'. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Participants ranked content as truthful in the order of genuine, minor hallucination, and major hallucination, and user engagement behaviors mirrored this pattern. More importantly, we observed that warning improved the detection of hallucination without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations. All survey materials, demographic questions, and post-session questions are available at: https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials

연구 동기 및 목표

훈련되지 않은 평가자가 다양한 정도의 환각(진짜, 소수 환각, 대다수 환각)이 생성한 LLM 콘텐츠의 정확성을 어떻게 인식하는지 이해한다.
경고가 진짜 및 환각 콘텐츠의 인지 정확도 및 참여도(좋아요, 싫어요, 공유)에 미치는 영향을 조사한다.
경고가 참여 행동에 미치는 영향을 확인하고 환각 수준에 따라 차이가 있는지 살펴본다.

제안 방법

TruthfulQA의 54개 질문에 대해 GPT-3.5-Turbo로 진짜, 소수 환각, 대다수 환각의 세 가지 응답 유형을 생성한다.
2 (경고 대조) x 3 (진짜, 소수, 대다수) 혼합 설계를 사용하고 그룹당 18개 아이템의 라틴 제곱 배열을 제시한다.
정확성 평가를 5점 척도로 측정하고 정확성 평가 전 참여 행동(좋아요, 싫어요, 공유)을 수집한다.
WARN 조건에 경고 태그를 포함한다: "The responses may contain inaccurate information about people, places, or facts."
419명의 Prolific 참가자를 모집하고 효과와 상호 작용을 테스트하기 위해 ANOVA를 수행한다.

실험 결과

연구 질문

RQ1RQ1: 훈련되지 않은 평가자들은 진짜, 소수 환각, 대다수 환각의 정확성을 어떻게 인식하며, 경고가 이러한 인식에 영향을 미치는가?
RQ2RQ2: 훈련되지 않은 평가자들은 진짜, 소수 환각, 대다수 환각에 대해 어떻게 참여(좋아요, 싫어요, 공유)하는가, 그리고 경고가 이러한 참여 패턴에 영향을 미치는가?

주요 결과

지표	F-통계량	p-값	부분 eta 제곱
정확도	595.1	< .001	0.59
좋아요	326.7	< .001	0.44
싫어요	356.7	< .001	0.46
공유	7.47	< .001	0.02

콘텐츠의 정확도는 순서대로 인식된다: 진짜 > 소수 환각 > 대다수 환각.
경고는 소수 환각 및 대다수 환각에 대한 인지 정확도를 낮추지만 진짜 콘텐츠에는 영향을 주지 않는다.
경고는 환각 콘텐츠에 대한 싫어요를 증가시키지만 좋아요나 공유에는 크게 영향을 미치지 않는다.
참여도는 정확도를 따른다: 진짜 콘텐츠가 더 많은 좋아요와 공유를 얻고, 소수 및 대다수 환각은 점진적으로 적은 참여를 받는다.
대상으로 삼은 환각 수준이 높아질수록 인지 정확도와 참여 간의 상관관계가 강화된다.
인지 정확도와 참여 간의 상관관계는 환각 수준이 높아질수록 더 강하게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.