[논문 리뷰] How Much Do LLMs Hallucinate across Languages? On Realistic Multilingual Estimation of LLM Hallucination
이 논문은 다국어 환각 탐지 모델을 학습하고, 30개 언어 평가 세트(mFAVA)를 생성하며, 11개의 오픈 소스 모델에서 실제 환경에서의 LLM 환각 비율을 추정하고, 작은 모델이 더 많은 환각을 보이며 언어별 자원과 환각률 간의 상관관계가 없다는 것을 발견한다.
In the age of misinformation, hallucination - the tendency of Large Language Models (LLMs) to generate non-factual or unfaithful responses - represents the main risk for their global utility. Despite LLMs becoming increasingly multilingual, the vast majority of research on detecting and quantifying LLM hallucination are (a) English-centric and (b) focus on machine translation (MT) and summarization, tasks that are less common in realistic settings than open information seeking. In contrast, we aim to quantify the extent of LLM hallucination across languages in knowledge-intensive long-form question answering (LFQA). To this end, we train a multilingual hallucination detection model and conduct a large-scale study across 30 languages and 6 open-source LLM families. We start from an English hallucination detection dataset and rely on MT to translate-train a detection model. We also manually annotate gold data for five high-resource languages; we then demonstrate, for these languages, that the estimates of hallucination rates are similar between silver (LLM-generated) and gold test sets, validating the use of silver data for estimating hallucination rates for other languages. For the final rates estimation, we build open-domain QA dataset for 30 languages with LLM-generated prompts and Wikipedia articles as references. Our analysis shows that LLMs, in absolute terms, hallucinate more tokens in high-resource languages due to longer responses, but that the actual hallucination rates (i.e., normalized for length) seems uncorrelated with the sizes of languages' digital footprints. We also find that smaller LLMs hallucinate more, and significantly, LLMs with broader language support display higher hallucination rates.
연구 동기 및 목표
- 영어 중심 과제를 넘어 다국어 환각 평가의 필요성을 제기한다.
- 영어 데이터를 번역-학습(translate-train)으로 학습된 다국어 환각 탐지(HD) 모델을 개발한다.
- HD 성능을 검증하기 위해 30개 언어에 걸친 gold 및 silver 평가 데이터(mFAVA)를 생성한다.
- 다언어에 걸친 LLM의 in-the-wild 환각 비율(HR_est)을 추정하는 프로토콜을 제안한다.
- 모델 크기, 언어 커버리지, 출력 길이가 환각 비율과 어떤 관계가 있는지 분석한다.
제안 방법
- Translate-train: 영어 FAVA 학습 데이터를 30개 언어로 번역하여 다국어 HD 모델을 학습한다.
- 환각 평가 데이터: 지식 탐색 응답에서 환각을 도입하도록 GPT-4에 프롬프트하여 mFAVA-Silver를 합성하고, 다섯 개의 자원-rich(high-resource) 언어에 대해 인간 주석으로 mFAVA-Gold를 수집한다.
- 모델 아키텍처: 고정된 Llama-3-8B-base 또는 동급 모델에 QLora 어댑터를 미세조정하여 이진(Binary) 및 범주(Category) 작업을 포함한 단일 및 다국어 HD 모델을 생성한다.
- 평가: 언어별 및 Silver와 Gold 부분에서 환각 탐지의 토큰 단위 정밀도와 재현율을 측정한다.
- 환각 비율 추정: HR_est,l = (P_l * H_det,l) / (R_l * N_l) * 100 로 계산하며, 여기서 H_det,l은 탐지된 환각 토큰, N_l은 총 토큰, P_l은 정밀도, R_l은 HD 모델의 재현율이다.
- 지식 집약 데이터세트: 위키피디아 참조 및 지식 질문에 대한 LLM 생성 답변으로부터 30개 언어 말뭉치를 구축하고 11개의 지시문 튜닝(open-source) LLM을 다룬다.
실험 결과
연구 질문
- RQ1다국어 HD 모델의 언어별 환각 탐지 성능은 무엇인가?
- RQ2실제 환경에서의 환각 비율은 언어 및 LLM 계통에 따라 어떻게 달라는가?
- RQ3은실(Silver) 주석이 언어 간 환각 비율 추정을 위한 골(Human Gold 주석)을 신뢰할 수 있게 근사하는가?
- RQ4모델 크기와 언어 커버리지가 실제 환경의 환각 비율에 어떤 영향을 미치는가?
주요 결과
- 언어별 환각 비율은 11개의 LLM에 걸쳐 평균적으로 7%에서 12% 사이이다.
- 연구 대상 계열에서 작은 모델이 더 큰 모델보다 더 많은 환각을 보인다.
- 더 많은 언어를 지원한다고 주장하는 모델은 더 높은 환각 비율을 보이는 경향이 있다.
- 더 긴 응답 길이는 더 많은 환각 토큰과 상관관계가 있지만, 토큰당 환각 비율은 길이와 상관없다.
- 다국어 HD 모델은 단일 언어 모델보다 우수하며, 특히 세부 범주 탐지에서 더 우수하다.
- 골 데이터가 있는 다섯 언어에서 Silver로부터 유도된 HR_est 추정치와 Gold의 추정치 사이에 강한 상관관계(r = 0.83)가 있어, 남은 언어에 대해 Silver 기반 접근을 지지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.