[논문 리뷰] HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models
HaluEval은 LLM 환각과 이를 다양한 모델과 전략이 인식하는 방식을 연구하기 위한 대규모 벤치마크를 제공합니다(30,000 환각 샘플 및 5,000 주석이 달린 ChatGPT 응답).
Large language models (LLMs), such as ChatGPT, are prone to generate hallucinations, i.e., content that conflicts with the source or cannot be verified by the factual knowledge. To understand what types of content and to which extent LLMs are apt to hallucinate, we introduce the Hallucination Evaluation benchmark for Large Language Models (HaluEval), a large collection of generated and human-annotated hallucinated samples for evaluating the performance of LLMs in recognizing hallucination. To generate these samples, we propose a ChatGPT-based two-step framework, i.e., sampling-then-filtering. Besides, we also hire some human labelers to annotate the hallucinations in ChatGPT responses. The empirical results suggest that ChatGPT is likely to generate hallucinated content in specific topics by fabricating unverifiable information (i.e., about $19.5\%$ responses). Moreover, existing LLMs face great challenges in recognizing the hallucinations in texts. However, our experiments also prove that providing external knowledge or adding reasoning steps can help LLMs recognize hallucinations. Our benchmark can be accessed at https://github.com/RUCAIBox/HaluEval.
연구 동기 및 목표
- LLMs가 어떤 유형의 콘텐츠에서 환각하는 경향이 있고, 그러한 환각이 어느 정도까지 나타나는지 이해한다.
- 환각 샘플을 자동으로 생성하기 위한 확장 가능한 2단계 샘플링-그다음 필터링 파이프라인을 만든다.
- ChatGPT 응답에서 환각을 식별하고 위치를 찾기 위한 인간 주석을 제공한다.
- 다양한 작업(QA, 지식 기반 대화, 요약)에 걸쳐 환각을 인식하는 여러 LLM의 능력을 평가한다.
- 지식 검색, 추론 등 환각 인식 향상을 위한 전략을 제안한다.
제안 방법
- 샘플을 자동으로 생성하기 위한 2단계 샘플링-그다음 필터링 파이프라인.
- 일반 쿼리에 대한 두 가지 샘플링 스타일: one-pass와 대화형 지시 스키마.
- 시드 데이터셋으로부터 30,000개의 작업별 환각 샘플(QA, 대화, 요약)을 자동으로 생성하고 실제 정답 신호로 필터링한다.
- 환각에 대해 ChatGPT 응답 5,000건을 사람에 의해 주석하고 span 수준 라벨링을 수행한다.
- 여러 LLM(폐쇄형 및 오픈 소스)을 대상으로 환각 인식 능력을 평가한다.
- 외부 지식 검색 및 사고의 사슬 추론과 같은 향상 전략의 분석.
실험 결과
연구 질문
- RQ1LLMs가 어떤 유형의 콘텐츠에서 환각을 보이며 이러한 환각이 작업 간에 얼마나 널리 발생하는가?
- RQ2현재 LLM이 생성된 텍스트에서 환각을 얼마나 잘 인식하는가?
- RQ3외부 지식, 추론 단계, 또는 대조적 설정이 환각 인식 향상에 영향을 주는가?
- RQ4환각이 주제에 민감한가, 그리고 인식에 가장 어려움을 주는 주제는 무엇인가?
주요 결과
- ChatGPT가 생성한 환각은 일반 응답의 약 19.5%에서 발생한다.
- LLMs은 환각 인식에 상당한 어려움을 보이며, 예를 들어 ChatGPT는 요약에서 58.53% 정확도, QA-언어 작업에서 62.59%를 달성하고 일부 모델은 거의 무작위에 가까운 성능이다.
- 외부 지식 제공은 인식을 크게 향상시키며(예: 지식 검색으로 QA 정확도가 76.83%로 상승).
- 사고의 사슬 추론은 혼합된 결과를 보인다: 요약에서는 도움이 되지만 QA 및 대화에서 성능을 감소시킬 수 있다.
- 실제 대조 테스트는 도전적이며 인식 성능을 낮출 수 있어 벤치마크의 난이도를 강조한다.
- 주제 분석은 환각 인식 실패가 특정 주제(예: 영화, 기술, 언어)에 집중되며 작업에 따라 다르다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.