[논문 리뷰] Evaluating Hallucinations in Chinese Large Language Models
HalluQA는 450개의 적대적 질문을 가진 중국어 환각 질문-답변 벤치마크로, 24개의 중국어 LLM에서 모방적 허위와 사실 오류를 GPT-4를 평가자로 사용해 평가합니다; 결과는 많은 모델이 어려움을 겪고 있으며, 특히 지식 기반이 아닌 환각에서 더 그렇습니다.
In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.
연구 동기 및 목표
- HalluQA를 개발하여 역사, 문화, 과학, 예술에 걸친 450개의 적대적 질문을 통해 중국어 LLM의 환각을 측정합니다.
- 중국어 모델에서 두 가지 유형의 환각인 모방적 허위와 사실 오류를 구분합니다.
- 모델 출력의 환각 여부를 판단하기 위한 자동 평가 프로토콜을 GPT-4로 제공합니다.
- 사전 학습형, 채팅형, 검색 증강형 등 다양한 중국어 LLM을 평가합니다.
- HalluQA 결과를 바탕으로 모델 유형과 정렬이 환각 유형에 미치는 영향을 분석하고 서로 다른 모델에 대한 우선순위 지침을 제시합니다.
제안 방법
- 두 데이터 파트로 HalluQA를 구성합니다: 모방적 허위에 대한 오도성 질문과 사실 오류에 대한 지식 질문.
- GLM-130B와 ChatGPT를 사용하여 적대적 질문을 생성하고, 사람 저자가 30개 도메인에서 총 450개 질문을 작성합니다.
- 각 질문에 정답 4개와 오답 4개를 포함하고, 정답의 타당성을 뒷받침하는 외부 지식 링크를 제공합니다.
- 자동 평가자로 GPT-4(gpt-4-0613)를 사용하고, 다수결 방식의 5판정 체계와 고정된 프롬프트 형식을 적용합니다.
- 평가된 24개 모델 중 환각이 아닌 답변의 비율을 비환각률로 평가합니다.
- 사전 학습형, 채팅형, 검색 증강형 채팅 범주에서의 모델 성능을 분석하고, 서로 다른 질문 유형에 대한 정렬 효과를 검토합니다.
실험 결과
연구 질문
- RQ1중국어 LLM이 문화적∙언어적으로 맞춤화된 질문에 직면했을 때 나타나는 지배적 환각 유형은 무엇인가?
- RQ2모델 유형(사전 학습형, 채팅형, 검색 증강형) 및 정렬이 모방적 허위와 사실 오류의 비율에 어떤 영향을 미치는가?
- RQ3GPT-4가 중국어 LLM 출력의 환각에 대한 신뢰할 수 있는 자동 평가자인가, 인간 판단과의 일치도는 어떠한가?
- RQ4HalluQA 결과를 바탕으로 다양한 모델 범주에 대해 어떤 환각 완화의 우선순위를 적용해야 하는가?
주요 결과
- HalluQA는 매우 도전적이며, 24개 모델 중 18개는 비환각률이 50% 미만입니다.
- 지식 기반 질문에서 특히 검색 증강 모델이 비환각률이 더 높게 나타납니다.
- 정렬은 오도성 질문에서 성능을 개선하지만, 일부 모델의 지식 기반 질문에 대해서는 약간의 성능 저하를 보일 수 있습니다.
- 폐쇄형 소스 모델이 대체로 오픈 소스 모델보다 성능이 우수한 경향이 있는데, 이는 사용자 피드백으로 인한 추가 최적화 때문일 수 있습니다.
- 사전 학습형 모델은 오도성 질문에서 뚜렷한 환각을 보이고, 채팅형 모델은 오도성 질문에서 개선되지만 지식 질문에서 실패할 수 있습니다.
- GPT-4 기반 평가가 인간 평가자와 높은 일치성을 보이며, 그 무작위성은 일치도에 큰 영향을 주지 않습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.