Skip to main content
QUICK REVIEW

[论文解读] Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation

Ruiyang Ren, Yuhao Wang|arXiv (Cornell University)|Jul 20, 2023
Topic Modeling被引用 19
一句话总结

本论文分析大型语言模型如何感知其事实知识边界,以及检索增强如何影响其开放域问答性能和自我评估,显示自评中过度自信以及检索有助于使判断与实际准确性对齐。

ABSTRACT

Large language models (LLMs) have shown impressive prowess in solving a wide range of tasks with world knowledge. However, it remains unclear how well LLMs are able to perceive their factual knowledge boundaries, particularly under retrieval augmentation settings. In this study, we present the first analysis on the factual knowledge boundaries of LLMs and how retrieval augmentation affects LLMs on open-domain question answering (QA), with a bunch of important findings. Specifically, we focus on three research questions and analyze them by examining QA, priori judgement and posteriori judgement capabilities of LLMs. We show evidence that LLMs possess unwavering confidence in their knowledge and cannot handle the conflict between internal and external knowledge well. Furthermore, retrieval augmentation proves to be an effective approach in enhancing LLMs' awareness of knowledge boundaries. We further conduct thorough experiments to examine how different factors affect LLMs and propose a simple method to dynamically utilize supporting documents with our judgement strategy. Additionally, we find that the relevance between the supporting documents and the questions significantly impacts LLMs' QA and judgemental capabilities. The code to reproduce this work is available at https://github.com/RUCAIBox/LLM-Knowledge-Boundary.

研究动机与目标

  • 评估 LLMs 如何感知其事实知识边界(先验与后验判断)。
  • 评估检索增强对 LLM QA 性能和边界感知的影响。
  • 检验不同特征的支持性文档如何影响 LLM 的依赖性与准确性。

提出的方法

  • 使用两种提示模式:QA 提示和判断性提示(先验和后验)。
  • 比较普通(无检索)与检索增强设置,涵盖密集型、稀疏型和混合检索器,其中包括 ChatGPT 生成的文档。
  • 在 Natural Questions、TriviaQA、HotpotQA 上使用 EM 和 F1 作为 QA 指标进行评估;引入 Give-up 率、Right/G、Right/¬G、Eval-Right 和 Eval-Acc 作为判断指标。
  • 为每个问题附上来自检索来源的十个支持性文档;分析文档质量(golden、高度相关的、弱相关的、随机的)的影响。
  • 通过 OpenAI API 使用 GPT-3.5-turbo (ChatGPT) 和 text-davinci-003 进行实验;为判断和 QA 任务设定提示轮次和解析规则。

实验结果

研究问题

  • RQ1在多大程度上 LLMs 能感知其事实知识边界?
  • RQ2检索增强对 LLMs 有何影响?
  • RQ3具有不同特征的支持文档如何影响 LLMs?

主要发现

  • LLMs 表现出过度自信,并在开放域问答中不准确地感知其事实知识边界。
  • 检索增强提升 LLMs 感知知识边界的能力,并提高判断的准确性(包括先验和后验)。
  • LLMs 倾向于高度依赖所提供的支持文档,较高的文档质量会提升 QA 性能和信心。
  • 密集检索和稀疏检索,尤其是结合使用时,通常在各数据集上实现最佳的检索增强 QA 性能。
  • ChatGPT 与 Davinci003 在检索增强的影响上存在差异,其中 Davinci003 往往从检索中获益更多,而 ChatGPT 对提示长度和文档噪声较为敏感。
  • 增加支持文档数量在到达某个点前提高性能,并在文档质量依赖的方式下影响 Give-up 率和 Eval-Acc。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。