Skip to main content
QUICK REVIEW

[논문 리뷰] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

Potsawee Manakul, Adian Liusie|arXiv (Cornell University)|2023. 03. 15.
Topic Modeling인용 수 33
한 줄 요약

SelfCheckGPT는 외부 데이터베이스 없이 다중 확률 샘플을 사용하여 정보적 일관성을 평가하고 비사실적 콘텐츠를 지적하는 제로자원, 블랙박스 환각 탐지 접근법이다.

ABSTRACT

Generative Large Language Models (LLMs) such as GPT-3 are capable of generating highly fluent responses to a wide variety of user prompts. However, LLMs are known to hallucinate facts and make non-factual statements which can undermine trust in their output. Existing fact-checking approaches either require access to the output probability distribution (which may not be available for systems such as ChatGPT) or external databases that are interfaced via separate, often complex, modules. In this work, we propose "SelfCheckGPT", a simple sampling-based approach that can be used to fact-check the responses of black-box models in a zero-resource fashion, i.e. without an external database. SelfCheckGPT leverages the simple idea that if an LLM has knowledge of a given concept, sampled responses are likely to be similar and contain consistent facts. However, for hallucinated facts, stochastically sampled responses are likely to diverge and contradict one another. We investigate this approach by using GPT-3 to generate passages about individuals from the WikiBio dataset, and manually annotate the factuality of the generated passages. We demonstrate that SelfCheckGPT can: i) detect non-factual and factual sentences; and ii) rank passages in terms of factuality. We compare our approach to several baselines and show that our approach has considerably higher AUC-PR scores in sentence-level hallucination detection and higher correlation scores in passage-level factuality assessment compared to grey-box methods.

연구 동기 및 목표

  • 외부 지식 기반 없이 블랙박스 LLM에서의 사실적 환각 문제의 도전과제 동기 부여 및 해결.
  • 다중 LLM 샘플 간의 일관성을 측정하기 위한 샘플링 기반 프레임워크(SelfCheckGPT) 제안.
  • 위키바이오로 파생된 GPT-3 데이터셋에서 문장 및 구절 수준의 사실성 레이블을 활용한 그레이-박스 및 블랙박스 기준선과의 비교 평가.

제안 방법

  • 주어진 프롬프트에 대해 동일한 LLM에서 N개의 확률적 샘플을 추출한다.
  • 문장 수준 사실성 점수를 BERTScore, QA 기반 일관성, unigram 최대 n-gram, NLI, 프롬프트 기반 평가를 이용해 계산한다.
  • n-gram의 경우 샘플과 주 응답에서 단순한 n-gram 모델을 학습하여 토큰 확률을 추정한다.
  • 문장 평가를 위해 NLI(DeBERTa-v3-large MNLI 미세조정) 기반의 모순 확률을 사용한다.
  • 샘플 맥락에 의해 문장이 지지되는지 여부를 LLM에 질의하는 프롬프트 기반 평가자(SelfCheckGPT-Prompt) 사용.
  • 문장 수준 점수를 보고 평균화를 통해 구절 수준 점수로 집계한다.
Figure 1: SelfCheckGPT with Prompt. Each LLM-generated sentence is compared against stochastically generated responses with no external database. A comparison method can be, for example, through LLM prompting as shown above.
Figure 1: SelfCheckGPT with Prompt. Each LLM-generated sentence is compared against stochastically generated responses with no external database. A comparison method can be, for example, through LLM prompting as shown above.

실험 결과

연구 질문

  • RQ1제로자원 블랙박스 샘플링으로 외부 데이터베이스 없이 사실성 대 비사실성 문장을 탐지할 수 있는가?
  • RQ2SelfCheckGPT 변형 중 어떤 것이 문장 및 구절 수준의 사실성에 대한 인간 평가와 가장 잘 상관관계를 보이는가?
  • RQ3SelfCheckGPT가 그레이-박스 및 다른 블랙박스 방법과 비교했을 때 탐지 성능 및 인간 평가와의 상관관계에서 어떤 차이를 보이는가?

주요 결과

MethodNonFactNonFact*FactualPearsonSpearman
Random72.9629.7227.04--
GPT-3 probabilities (LLM, grey-box) Avg(-log p)83.2138.8953.9757.0453.93
GPT-3 probabilities (LLM, grey-box) Avg(H)80.7337.0952.0755.5250.87
GPT-3 probabilities (LLM, grey-box) Max(-log p)87.5135.8850.4657.8355.69
GPT-3 probabilities (LLM, grey-box) Max(H)85.7532.4350.2752.4849.55
LLaMA-30B (Proxy LLM, black-box) Avg(-log p)75.4330.3241.2921.7220.20
LLaMA-30B (Proxy LLM, black-box) Avg(H)80.8039.0142.9733.8039.49
LLaMA-30B (Proxy LLM, black-box) Max(-log p)74.0127.1431.08-22.83-22.71
LLaMA-30B (Proxy LLM, black-box) Max(H)80.9237.3237.9035.5738.94
SelfCheckGPT w/ BERTScore81.9645.9644.2358.1855.90
SelfCheckGPT w/ QA84.2640.0648.1461.0759.29
SelfCheckGPT w/ Unigram (max)85.6341.0458.4764.7164.91
SelfCheckGPT w/ NLI92.5045.1766.0874.1473.78
SelfCheckGPT w/ Prompt93.4253.1967.0978.3278.30
  • SelfCheckGPT 변형은 여러 기준 중에서 비사실 및 사실 문장에 대해 문장 수준의 AUC-PR이 더 높은 경향을 보였다.
  • NLI 기반 SelfCheckGPT가 문장 수준 탐지에서 프롬프트 기반 평가에 근접한 강력한 성능을 보인다.
  • 프롬프트 기반 SelfCheckGPT가 인간 평가와의 구절 수준 상관관계에서 최고치를 보인다(피어슨 78.32, 스피어만 78.30).
  • NLI 기반 SelfCheckGPT는 성능과 계산 비용 사이의 실용적 균형을 제공한다.
  • 언리그램(최대) SelfCheckGPT가 비교적 낮은 계산 비용으로 문장 수준에서 경쟁력 있는 결과를 제공한다.
  • 대리 LLM(예: LLaMA)과 비교했을 때 자기 샘플링 기반 방법이 인간 평가와의 상관관계가 더 우수하다.
Figure 2: Example of OpenAI’s GPT-3 web interface with output token-level probabilities displayed.
Figure 2: Example of OpenAI’s GPT-3 web interface with output token-level probabilities displayed.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.