[논문 리뷰] The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models
본 논문은 LLM의 사실성 환각을 연구하기 위해 HaluEval 2.0을 구축하고, 두 단계 탐지 프레임워크를 제안하며, 학습 및 사용 단계 전반에 걸친 환각 원인을 분석하고, 완화 기법을 평가한다.
In the era of large language models (LLMs), hallucination (i.e., the tendency to generate factually incorrect content) poses great challenge to trustworthy and reliable deployment of LLMs in real-world applications. To tackle the LLM hallucination, three key questions should be well studied: how to detect hallucinations (detection), why do LLMs hallucinate (source), and what can be done to mitigate them (mitigation). To address these challenges, this work presents a systematic empirical study on LLM hallucination, focused on the the three aspects of hallucination detection, source and mitigation. Specially, we construct a new hallucination benchmark HaluEval 2.0, and designs a simple yet effective detection method for LLM hallucination. Furthermore, we zoom into the different training or utilization stages of LLMs and extensively analyze the potential factors that lead to the LLM hallucination. Finally, we implement and examine a series of widely used techniques to mitigate the hallucinations in LLMs. Our work has led to several important findings to understand the hallucination origin and mitigate the hallucinations in LLMs. Our code and data can be accessed at https://github.com/RUCAIBox/HaluEval-2.0.
연구 동기 및 목표
- 사전 학습(pre-training), 감독형 미세조정(SFT), RLHF, 및 추론(inference) 전반에서 LLM이 왜 환각하는지(원천)를 조사한다.
- LLM 출력에 대한 신뢰할 수 있는 환각 탐지 프레임워크를 개발하고 검증한다.
- 일반적인 완화 전략(RLHF, 검색 강화(retrieval augmentation), 자기 성찰(self-reflexion), 디코딩, 프롬프트 설계)의 효과를 도메인 간 분석한다.
- 데이터 및 학습 선택이 LLM의 사실성에 미치는 영향에 대한 도메인별 통찰을 제공한다.
제안 방법
- 생물의학, 금융, 과학, 교육, 그리고 오픈 도메인을 포함하여 8,770개의 질문으로 구성된 HaluEval 2.0을 구축한다.
- 두 단계 탐지 프레임워크를 제안한다: 응답에서 사실 진술을 추출한 뒤 LLM을 이용해 그 진실성을 판단한다.
- 벤치마크에서 오픈 소스 및 클로즈드 소스 LLM의 범위를 평가한다.
- 사전 학습(pre-training), SFT, 프롬프트 설계, 추론(inference)에서 환각에 영향을 미치는 요인을 체계적으로 분석한다.
- 데이터의 하위 집합에 대해 LLM 판단과 인간 주석의 비교를 통해 탐지 신뢰성을 평가한다.
- RLHF, 검색 강화, 자기 성찰, 고급 디코딩, 프롬프트 개선 등을 포함한 완화 기법을 조사한다.
실험 결과
연구 질문
- RQ1사전 학습(pre-training), 감독형 미세조정(SFT), 프롬프트 설계, 추론(inference)에서 어떤 요인이 도메인에 걸쳐 LLM의 사실성 환각에 영향을 미치는가?
- RQ2제안된 두 단계 환각 탐지 프레임워크가 사실 오류를 식별하는 데 얼마나 효과적인가?
- RQ3도메인 간 환각을 가장 잘 줄이는 완화 전략은 무엇이며, 도메인에 따라 효과는 어떻게 달라지는가?
- RQ4오픈 소스 LLM과 클로즈드 소스 LLM이 환각 경향 및 환각 인식에서 어떻게 비교되는가?
주요 결과
- 사전 학습(pre-training): 더 많은 토큰이 환각에 미치는 영향은 제한적이거나 진동하는 경향이 있으며; 사전 학습에 특화된 데이터를 포함시키는 것은 도메인별 환각을 크게 줄일 수 있다.
- 미세 조정(fine-tuning): 개선된 지시사항은 환각 감소에 도움이 되며, 지시의 복잡도 균형이 유익하지만 지나히 복잡한 프롬프트는 환각을 증가시킬 수 있다; RLHF의 효과는 도메인에 따라 다르다.
- 추론(inference): 다양성 지향 디코딩은 전문 도메인에서 환각을 증가시킬 수 있으며; 토큰 단위 생성은 선행 오류를 강화하고; 양자화(quantization)도 환각을 증가시킬 수 있다.
- 프롬프트 설계: 세부 정보를 추가하고 컨텍스트 학습(in-context learning)을 활용하면 환각을 감소시킬 수 있으며; 읽기 쉬운 형식의 공식적이고 구체적인 언어가 환각을 줄이고, 작업 설명의 재배치는 환각 수준에 영향을 줄 수 있다.
- 클로즈드 소스 모델(예: ChatGPT, Claude 2)은 환각률이 낮은 편이지만 오픈 도메인 환경에서 과도하게 애매하게 대답할 수 있다; 오픈 소스 모델은 더 큰 변동성과 도메인별 환각이 더 높게 나타내며, 특히 오픈 도메인 질문에서 그렇다.
- 탐지 프레임워크는 인간 판단에 대해 높은 신뢰성을 달성하며, 인간 주석 하위집합에서 도메인 간 일치율이 약 92-95%에 도달한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.