[论文解读] Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity
本调查全面回顾大型语言模型(LLMs)的 factuality,涵盖定义、评估指标、潜在原因,以及独立与检索增强的 LLMs 在通用和领域特定设定中的提升策略。
This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.
研究动机与目标
- 定义 LLMs 的 factuality 问题及其在各领域的影响。
- 调查用于衡量 LLM factuality 的评估指标、基准和研究。
- 分析知识存储、检索和推理作为 factual errors 的根本原因。
- 评审独立与检索增强 LLMs 的提升策略,包括领域特定方法。
- 提供一个结构化指南和用于提升 LLMs 事实可靠性的开源资源。
提出的方法
- 将事实性问题归类为独立与检索增强的 LLM 设置。
- 总结用于事实性评估的指标与基准,包括基于规则、神经网络、人工和基于 LLM 的方法。
- 分析在模型、检索和推理层面的事实性错误原因。
- 评审涵盖预训练、监督、解码、检索增强,以及领域特定适应等提升技术。

实验结果
研究问题
- RQ1LLMs 中的事实性由何构成,其主要影响领域是什么?
- RQ2如何评估事实性,以及使用了哪些基准和指标?
- RQ3LLMs 中事实性错误的主要来源有哪些(模型、检索、推理),它们如何交互?
- RQ4存在哪些策略来提高独立和检索增强 LLMs 的事实性,包括领域特定提升?
主要发现
- 事实性错误来自知识不足、信息过时以及跨领域的推理失败。
- 存在多种评估指标,涵盖精确匹配、概率校准、n-gram 重叠,以及如 FActScore 和基于 GPT 的评审等专门的事实性分数。
- 检索增强的 LLMs 可以通过外部知识源缓解部分事实错误,但也带来检索特定挑战,如误解或错误信息。
- 面向领域的事实性至关重要,在医学、法律、金融等领域有专门的模型和数据集。
- 摘要强调对事实性进行结构化评估和提升的方法,并在提供的 GitHub 仓库中为持续研究维护开源材料。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。