[논문 리뷰] An Audit on the Perspectives and Challenges of Hallucinations in NLP
이 논문은 NLP 문헌이 대형 언어 모델의 환각을 어떻게 정의하고 측정하는지 감사하고, 관점을 포착하기 위해 실무자를 설문하며, 사회기술 시스템에서의 환각을 다루기 위한 윤리 프레임워크를 제안한다.
We audit how hallucination in large language models (LLMs) is characterized in peer-reviewed literature, using a critical examination of 103 publications across NLP research. Through the examination of the literature, we identify a lack of agreement with the term `hallucination' in the field of NLP. Additionally, to compliment our audit, we conduct a survey with 171 practitioners from the field of NLP and AI to capture varying perspectives on hallucination. Our analysis calls for the necessity of explicit definitions and frameworks outlining hallucination within NLP, highlighting potential challenges, and our survey inputs provide a thematic understanding of the influence and ramifications of hallucination in society.
연구 동기 및 목표
- NLP/AI 문헌 전반에서 'hallucination' 용어가 어떻게 정의되고 구성되는지 평가합니다.
- NLP 작업에서 환각을 정의하는 데 사용되는 일반적인 프레임워크와 속성을 식별합니다.
- 언어 모델의 사회기술적 및 사회적 차원을 검토합니다.
- 환각을 정량화하는 데 널리 사용되는 지표와 그 한계를 평가합니다.
- 정의와 윤리에 정보를 제공하기 위해 설문조사를 통해 실무자의 관점을 포착합니다.
제안 방법
- 환각의 정의와 프레임워크를 103편의 동료 심사 논문에서 감사합니다.
- 정의들을 일곱 개의 NLP 하위 분야로 주제별로 분류합니다.
- 논문들이 기존의 프레임워크와 사회기술적 측면을 인정하는지 검사합니다.
- 환각 평가 지표를 네 가지 주제로 분류합니다(사람, 데이터 기반, 통계적, 혼합).
- 실무자 설문조사를 실시합니다(n=171 사용 가능) 환각의 친숙도, 빈도, 정의를 탐색합니다.
- 발견을 종합하여 향후 작업을 위한 윤리 프레임워크를 개략적으로 제시합니다.
실험 결과
연구 질문
- RQ1RQ1: NLG‑발표 논문에서 어떤 정의와 일반 프레임워크가 환각을 설명하는 데 사용됩니까?
- RQ2RQ2: 연구자들은 환각에 대해 현재 어떤 이해를 가지고 있으며, 연구에서 그것을 어떻게 접하게 됩니까?
주요 결과
- 103편의 논문 중 환각을 정의하는 논문은 42.7%에 불과했고, 27%는 명시적으로 기존 프레임워크를 참조합니다.
- 환각을 정의하는 논문 중 57.3%는 선행 프레임워크에 의존하지 않습니다.
- 환각 측정을 위한 지표는 다양하며, 35.2%는 통계적 지표를 사용하고 28.4%는 혼합 방법을 채택합니다; 데이터 기반 지표는 26.1%, 인간 평가 10.2%입니다.
- 소수의 논문(103편 중 3편)이 사회기술적 차원을 인정하지만, 그 프레임워크를 적용한 경우는 없습니다.
- 실무자 설문조사(n=171)는 매일 대다수 LLM을 사용한다는 것을 보여줍니다(일일 최소 사용 67.28%; 항상 사용하는 비율 20.37%), 그리고 46.91%는 가끔 환각을 접하고 29.01%는 자주 접합니다.
- 대부분의 응답자는 환각을 LLM의 약점으로 봅니다(92% 이상).
- 대략 54.32%의 응답자는 'hallucination' 용어를 선호하거나 대안이 없고, 40.46%는 'Fabrication'을 대안으로 제안하며, 일부는 'Confabulations'를 선호합니다.
- 작고 눈에 띄는 비율(약 10%)은 이야기 만들기와 이미지 생성에서 환각의 긍정적/창의적 측면을 봅니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.