QUICK REVIEW

[论文解读] Factuality of Large Language Models: A Survey

Yuxia Wang, Minghan Wang|arXiv (Cornell University)|Feb 4, 2024

Topic Modeling被引用 7

一句话总结

对大型语言模型（LLMs）在事实性方面的全面综述，详述评估基准、数据集、事实性提升方法，以及在文本和多模态输出上的开放挑战。

ABSTRACT

Large language models (LLMs), especially when instruction-tuned for chat, have become part of our daily lives, freeing people from the process of searching, extracting, and integrating information from multiple sources by offering a straightforward answer to a variety of questions in a single place. Unfortunately, in many cases, LLM responses are factually incorrect, which limits their applicability in real-world scenarios. As a result, research on evaluating and improving the factuality of LLMs has attracted a lot of attention recently. In this survey, we critically analyze existing work with the aim to identify the major challenges and their associated causes, pointing out to potential solutions for improving the factuality of LLMs, and analyzing the obstacles to automated factuality evaluation for open-ended text generation. We further offer an outlook on where future research should go.

研究动机与目标

识别导致 LLMs 事实性错误的主要挑战，并将其与幻觉、相关性和可信度等相关概念区分开来。
系统性地回顾用于评估开放式文本生成中事实性的数据集、度量与基准。
系统性梳理在模型生命周期（预训练、微调、推理和后处理）中改进事实性的技术。
讨论实际和自动化事实核查流程及其局限性，包括多模态 LLMs 的跨模态事实性问题。

提出的方法

批判性分析现有工作，以绘制事实性错误的成因、对评估方法的分类以及改进策略。
将事实性、幻觉、相关性和可信度进行比较，以帮助研究人员和从业者厘清区别。
按数据格式（生成与判别）组织数据集与度量，并讨论自动评估与人工评估的权衡。
总结可降低事实性错误的预训练、微调/RLXF 与检索增强方法，突出瓶颈及潜在解决方案。
概述在推理阶段影响事实性的解码、上下文学习和自我推理技术。
审视自动事实核查架构及评估与提升事实性的实际考量。

Figure 1: Fact-checker framework: claim processor, retriever, and verifier, with optional step of summarizing and explaining in gray.

实验结果

研究问题

RQ1LLMs 中驱动事实性错误的核心因素是什么？它们与幻觉、相关性和可信度之间的关系如何？
RQ2事实性数据集与评估度量在不同数据格式中的组织方式及其对开放式生成的局限性是什么？
RQ3哪些生命周期策略（预训练、微调、检索增强、推理）最能改善事实性，存在哪些瓶颈？
RQ4对于开放式文本和多模态输出，自动事实核查流程的实际架构与挑战有哪些？
RQ5未来的事实性研究应关注哪些开放性问题与有前景的方向？

主要发现

事实性与幻觉是相关但不同的概念；事实性关注于与世界知识和可靠来源的一致性。
用于事实性的数据集按答案空间（开放式、是/否、简短、选择题）分类，在对长文本进行自动评估时面临挑战。
检索增强生成与上下文知识编辑是提升事实性的常见策略，但也伴随延迟和数据需求等权衡。
自动事实核查工具有助于检测并纠正事实错误，但现有核查器（即使基于 GPT-4 的）也未达到完美准确性，仍未与人类标签完全对齐。
多模态 LLMs 带来额外的着陆性挑战，文本扩展到视觉和音频的并行方法，以及事后着陆方法显示出潜力，但在计算和数据收集成本上更高。
关键未解决问题包括自动评估的难度、语言模型目标与事实性之间的根本错位，以及需要可扩展、可靠的事实核查流程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。