[论文解读] Corrective Retrieval Augmented Generation
CRAG 引入了一个轻量级检索评估器和纠正措施,通过处理不正确或模糊的检索结果,并辅以网页搜索以及对检索文本进行分解再重组的细化来提升 Retrieval-Augmented Generation 的鲁棒性。
Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.
研究动机与目标
- 通过解决检索不准确性和在 LLM 输出中的潜在幻觉来提升 RAG 的鲁棒性。
- 提出一个轻量级的检索评估器来评估查询的检索文档质量。
- 引入纠正措施(Correct、Incorrect、Ambiguous),触发 refinement 或网页搜索来增强知识。
- 开发一个可即插即用的 CRAG 模块,能够与标准的 RAG 与 Self-RAG 方法在各领域集成。
- 展示 CRAG 在短文与长文生成任务中的广泛适用性。
提出的方法
- 设计一个轻量级检索评估器(基于 T5-large)来对给定查询的每个检索文档的相关性进行评分。
- 定义一个基于置信度的行动策略,含三个行动:Correct、Incorrect、Ambiguous,由上阈值/下阈值触发。
- 当触发 Correct 时,执行知识 refinement,将文档分解为知识条带、筛选并重新组合相关部分。
- 当触发 Incorrect 时,丢弃检索结果并进行网页搜索以获取外部知识。
- 当触发 Ambiguous 时,结合内部 refinement 和外部网页搜索。
- 整合网页搜索模块(查询用关键词改写)以获取外部知识,并应用相同的 refinement 流程以提取相关内容。
- 确保 CRAG 是可即插即用且与 RAG 与 Self-RAG 框架兼容。
实验结果
研究问题
- RQ1在 RAG 设置中,如何评估检索文档的相关性和可靠性?
- RQ2轻量级的检索评估器是否能有效触发纠正措施以提高生成质量?
- RQ3当静态语料库失效时,是否通过网页搜索引入的网页级外部知识能增强鲁棒性?
- RQ4知识 refinement 和行动触发对短文 vs 长文生成任务的影响是什么?
- RQ5CRAG 能否在不同的基于 RAG 的方法之间实现可迁移,而无需额外的指令微调?
主要发现
- CRAG 在与标准 RAG 和 Self-RAG 集成时,在四个数据集上覆盖短文与长文生成任务时显著提升了性能。
- CRAG 展现出作为一个即插即用模块的适应性,能够在不需要评估器额外标注的情况下提升 RAG 和 Self-RAG。
- 一个基于 T5 的轻量级检索评估器在评估给定查询的检索文档质量方面优于基于 ChatGPT 的替代方案。
- 消融研究表明,移除任一单一行动或核心知识利用操作都会降低性能,凸显了 refinement、rewriting 以及外部知识选择的贡献。
- CRAG 提高了对检索质量变化的鲁棒性,Self-CRAG 显示出相较于 Self-RAG 在检索质量下降时具有更强的韧性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。