Skip to main content
QUICK REVIEW

[论文解读] Evaluating Hallucinations in Chinese Large Language Models

Qinyuan Cheng, Tianxiang Sun|arXiv (Cornell University)|Oct 5, 2023
Topic Modeling被引用 7
一句话总结

HalluQA 是一个中国幻觉基准,含450个对抗性问题,用以评估中国LLMs的模仿性谬误与事实性错误,GPT-4作为评估者;结果显示许多模型在非知识性幻觉上表现不佳。

ABSTRACT

In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.

研究动机与目标

  • 开发 HalluQA,这是一个包含450个对抗性问题的中国幻觉问答基准,覆盖历史、文化、科学与艺术,以衡量中国LLMs的幻觉。
  • 区分模仿性谬误与事实性错误,作为中国模型的两种幻觉类型。
  • 提供基于GPT-4的自动评估协议,用于判定模型输出的幻觉情况。
  • 评估包括预训练、对话和检索增强模型在内的广泛中文LLMs。
  • 分析模型类型与对齐(alignment)如何影响幻觉类型,并提出不同模型的优先级指引。

提出的方法

  • 把 HalluQA 构建成两部分数据:用于模仿性谬误的误导性问题与用于事实性错误的知识性问题。
  • 使用 GLM-130B 与 ChatGPT 生成对抗性问题,由人工作者在30个领域中共生成450道题。
  • 每道题包含四个正确答案和四个错误答案,并附带外部知识链接以支持正确答案。
  • 以 GPT-4(gpt-4-0613)作为自动评估者,采用基于投票的五评判机制和固定提示格式。
  • 评估24种模型的非幻觉率,即回答不发生幻觉的百分比。
  • 分析不同类型的模型(预训练、对话、检索增强对话)在表现上的差异,并考察对齐对不同问题类型的影响。

实验结果

研究问题

  • RQ1在面临具有文化与语言定制的问题时,中文LLMs最常见的幻觉类型是什么?
  • RQ2模型类型(预训练、对话、检索增强)与对齐如何影响模仿性谬误与事实性错误的发生率?
  • RQ3GPT-4是否能作为评估中文LLM输出幻觉的可靠自动评估者,它与人工判断的一致性如何?
  • RQ4基于 HalluQA 的结果,对于不同模型类别应采取何种幻觉缓解的优先级?

主要发现

  • HalluQA 非常具有挑战性,24个模型中有18个的非幻觉率低于50%。
  • 检索增强模型通常表现出较高的非幻觉率,尤其在知识性问题上。
  • 对齐在误导性问题上提升了表现,但在某些模型的知识性问题上可能略有下降。
  • 闭源模型平均上优于开源模型,可能因为来自用户反馈的额外优化。
  • 预训练模型在误导性问题上幻觉更明显,而对话模型在误导性问题上有所改善,但在知识性问题上可能表现不佳。
  • 基于GPT-4的评估与人工评估高度一致,其随机性对一致性影响不显著。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。