[论文解读] Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
一份全面的综述,将数据增强的 LLM 查询分为四个层级,讨论 RAG 的改进、检索策略和集成形式。
Large language models (LLMs) augmented with external data have demonstrated remarkable capabilities in completing real-world tasks. Techniques for integrating external data into LLMs, such as Retrieval-Augmented Generation (RAG) and fine-tuning, are gaining increasing attention and widespread application. Nonetheless, the effective deployment of data-augmented LLMs across various specialized fields presents substantial challenges. These challenges encompass a wide range of issues, from retrieving relevant data and accurately interpreting user intent to fully harnessing the reasoning capabilities of LLMs for complex tasks. We believe that there is no one-size-fits-all solution for data-augmented LLM applications. In practice, underperformance often arises from a failure to correctly identify the core focus of a task or because the task inherently requires a blend of multiple capabilities that must be disentangled for better resolution. In this survey, we propose a RAG task categorization method, classifying user queries into four levels based on the type of external data required and primary focus of the task: explicit fact queries, implicit fact queries, interpretable rationale queries, and hidden rationale queries. We define these levels of queries, provide relevant datasets, and summarize the key challenges and most effective techniques for addressing these challenges. Finally, we discuss three main forms of integrating external data into LLMs: context, small model, and fine-tuning, highlighting their respective strengths, limitations, and the types of problems they are suited to solve. This work aims to help readers thoroughly understand and decompose the data requirements and key bottlenecks in building LLM applications, offering solutions to the different challenges and serving as a guide to systematically developing such applications.
研究动机与目标
- 定义数据增强的 LLM 应用的结构化视图,以及为何外部数据能提升 LLM 的性能。
- 为数据增强任务提出四层查询分类(显性事实、隐性事实、可解释推理、隐藏推理)。
- 调查 RAG 及替代方案的挑战、数据集和有效技术。
- 讨论外部数据集成的三种主要形式:上下文、轻量模型和微调,以及它们的权衡。
提出的方法
- 给出一个数据增强的 LLM 应用的形式化问题定义,表示为 f: Q -> A,在给定数据 D 的条件下。
- 将查询分为四个层级并将数据集映射到相应层级(参见表 1)。
- 详细阐述 RAG 组件:数据处理、数据检索(稀疏、密集、混合)、文档/查询对齐、重新排序,以及迭代检索。
- 描述响应生成的改进,包括处理嘈杂检索以及检索器和生成器的联合再训练。
- 引入用于更高层次(隐性)事实查询的迭代、图/树和基于 SQL 的方法。
- 讨论超越 RAG 的替代数据集成策略,包括知识图谱、基于图的推理,以及基于块的提示。
实验结果
研究问题
- RQ1如何根据外部数据需求和任务焦点将用户查询分层?
- RQ2在四个层级中检索和使用外部数据时的主要挑战和有效解决方案是什么?
- RQ3上下文、小模型和微调方法在数据增强 LLM 中的优点与局限性是什么?
- RQ4哪些数据集体现显性/隐性事实与推理层级的查询,以及它们如何映射到现有任务?
主要发现
- RAG 仍然是处理显性事实查询的核心解决方案,面对非结构化、多模态数据的数据处理与检索挑战。
- 迭代与层级检索策略有助于解决多步与复杂的隐性事实查询。
- 三种数据集成形式——上下文、小模型和微调——在控制、效率和领域适应方面提供不同的权衡。
- 对齐策略(传统、文献/领域、查询/领域)和重新排序对检索质量至关重要,诸如 HyDE 和 SlimPLM 等方法有助于改进。
- 通过微调和联合再训练来处理嘈杂的检索,可以稳定生成并减少数据增强 LLM 的虚构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。