Skip to main content
QUICK REVIEW

[논문 리뷰] The Troubling Emergence of Hallucination in Large Language Models -- An Extensive Definition, Quantification, and Prescriptive Remediations

Vipula Rawte, Swagata Chakraborty|arXiv (Cornell University)|2023. 10. 08.
Mental Health via Writing인용 수 11
한 줄 요약

본 논문은 LLM 환각의 미세한 분류체계를 제시하고, 공개 데이터셋(HILT)을 도입하며, 모델 순위를 매기기 위한 Hallucination Vulnerability Index(HVI)를 정의하고, 두 가지 완화 전략을 제시한다.

ABSTRACT

The recent advancements in Large Language Models (LLMs) have garnered widespread acclaim for their remarkable emerging capabilities. However, the issue of hallucination has parallelly emerged as a by-product, posing significant concerns. While some recent endeavors have been made to identify and mitigate different types of hallucination, there has been a limited emphasis on the nuanced categorization of hallucination and associated mitigation methods. To address this gap, we offer a fine-grained discourse on profiling hallucination based on its degree, orientation, and category, along with offering strategies for alleviation. As such, we define two overarching orientations of hallucination: (i) factual mirage (FM) and (ii) silver lining (SL). To provide a more comprehensive understanding, both orientations are further sub-categorized into intrinsic and extrinsic, with three degrees of severity - (i) mild, (ii) moderate, and (iii) alarming. We also meticulously categorize hallucination into six types: (i) acronym ambiguity, (ii) numeric nuisance, (iii) generated golem, (iv) virtual voice, (v) geographic erratum, and (vi) time wrap. Furthermore, we curate HallucInation eLiciTation (HILT), a publicly available dataset comprising of 75,000 samples generated using 15 contemporary LLMs along with human annotations for the aforementioned categories. Finally, to establish a method for quantifying and to offer a comparative spectrum that allows us to evaluate and rank LLMs based on their vulnerability to producing hallucinations, we propose Hallucination Vulnerability Index (HVI). We firmly believe that HVI holds significant value as a tool for the wider NLP community, with the potential to serve as a rubric in AI-related policy-making. In conclusion, we propose two solution strategies for mitigating hallucinations.

연구 동기 및 목표

  • 방향성, 범주, 정도에 따른 LLM 환각의 미세한 분류체계를 제공한다.
  • 15개의 LLM과 75,000개의 샘플에 대한 인간 주석이 포함된 공개 데이터셋(HILT)을 생성한다.
  • LLM의 환각에 대한 민감도에 따라 순위를 매기기 위해 Hallucination Vulnerability Index(HVI)를 도입한다.
  • 두 가지 완화 전략(자동화 및 사람-루프)을 제안하고 잠재적 영향을 평가한다.
  • 환각 인지 NLP의 정책적 시사점과 향후 연구를 논의한다.

제안 방법

  • 환각의 두 가지 방향성(Factual Mirage와 Silver Lining)을 내재적/외재적 하위범주와 세 가지 정도(mild, moderate, alarming)로 정의한다.
  • 약어 중의성, 숫자 방해, 생성된 골렘, 가상 음성, 지리적 오차, 시간 랩 등 여섯 가지 유형으로 환각을 예시와 함께 분류한다.
  • NYTimes 트윗과 Politifact 프롬프트를 사용하여 15개 LLM에서 각 모델당 5,000개의 샘플, 총 75,000개 샘플을 생성하고, 방향성 및 범주에 대해 MACE를 통해 인간 주석을 부여하여 HILT를 구축한다.
  • Hallucination Vulnerability Index(HVI)를 정의하고 계산하여 LLM을 순위화하며, 감쇠 계수와 0-100 스케일로의 정규화를 포함한다.
  • 두 가지 완화 전략을 제시한다: (a) 고-엔트로피 단어 탐지 및 대체( ENTROPY BB, black-box)와 (b) 텍스트 포함 관계를 통한 문장 수준의 사실성 확인( FACTUALITY GB, gray-box).
  • 사실성 확인을 위한 외부 자원(Google Search API)과 포함 관계 모델(RoBERTa Large)의 사용 및 사람 중심 검토를 논의한다.
Figure 1: Hallucination: orientation, category, and degree (decreasing level of difficulty from top to bottom).
Figure 1: Hallucination: orientation, category, and degree (decreasing level of difficulty from top to bottom).

실험 결과

연구 질문

  • RQ1LLM 출력에서의 뚜렷한 방향성과 범주는 무엇인가?
  • RQ2다양한 모델 집합에서 LLM의 환각 민감도를 어떻게 정량화하고 비교할 수 있는가?
  • RQ3모델 간 환각 유형의 강력한 분석을 가능하게 하는 데이터셋과 주석 체계는 무엇인가?
  • RQ4환각을 줄일 수 있는 완화 전략은 무엇이며 블랙박스 대 그레이박스 접근 방식의 효과는 어떤가?
  • RQ5HVI가 파운데이션 모델의 정책 및 위험 평가에 어떤 정보를 제공할 수 있는가?

주요 결과

  • HILT는 15개의 LLM에서 75,000개의 스니펫으로 구성되며, 각 모델당 2,500 FM과 2,500 SL로 범주별로 총 129K 주석 문장을 포함한다.
  • HVI는 0-100 척도로 환각 취약성을 비교해 주며, GPT-3(90), StableLM(82), GPT-2(70), Vicuna(62), MPT(59), LLaMA(57), GPT-3.5(53) 등이 그 뒤를 이르고, 다른 모델은 더 낮은 점수를 보인다.
  • RLHF가 없는 대형 모델은 방향성 전반에서 더 높은 환각 경향을 보이는 반면, RLHF에 영향을 받은 모델은 일부 경우에 더 낮은 취약성을 보이는 경향이 있다.
  • 두 가지 완화 기준이 제안된다: ENTROPY BB(블랙박스 단어 엔트로피 기반 대체)와 FACTUALITY GB(외부 검색과 포함 관계를 이용한 문장 수준 사실성 점검).
  • 포함 관계 기반 사실성 점검으로 회색 상자 방식에서 약 26%의 문장이 잠재적 재작성 대상으로 표시되었다.
  • HVI를 통해 특정 카테고리(예: Time Wrap, Geographic Erratum, Virtual Voice)가 모델 크기와 RLHF 사용에 따라 어떻게 진화하는지 추적할 수 있다.
Figure 2: HVI for different hallucination categories across various LLMs.
Figure 2: HVI for different hallucination categories across various LLMs.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.