[论文解读] Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers
本文提出 Blended RAG,结合跨多个索引的语义搜索与混合查询策略,以提升检索器和 RAG 的准确性,在零-shot 设置下在 NQ、TREC-COVID、SQuAD 等数据集上创造了新的基准。
Retrieval-Augmented Generation (RAG) is a prevalent approach to infuse a private knowledge base of documents with Large Language Models (LLM) to build Generative Q\&A (Question-Answering) systems. However, RAG accuracy becomes increasingly challenging as the corpus of documents scales up, with Retrievers playing an outsized role in the overall RAG accuracy by extracting the most relevant document from the corpus to provide context to the LLM. In this paper, we propose the 'Blended RAG' method of leveraging semantic search techniques, such as Dense Vector indexes and Sparse Encoder indexes, blended with hybrid query strategies. Our study achieves better retrieval results and sets new benchmarks for IR (Information Retrieval) datasets like NQ and TREC-COVID datasets. We further extend such a 'Blended Retriever' to the RAG system to demonstrate far superior results on Generative Q\&A datasets like SQUAD, even surpassing fine-tuning performance.
研究动机与目标
- 在语料库规模扩大、检索器质量主导整体性能时,推动提升 RAG 的准确性。
- 提出融合语义搜索(密集/稀疏索引)与混合查询的 Blended Retriever 策略。
- 在多个信息检索和问答数据集上评估 Blended Retriever 与 Blended RAG,以建立新的基准。
- 展示无需数据集特定微调即可实现的零-shot RAG 性能提升。
提出的方法
- 以 BM25 作为基线进行基于关键字的检索。
- 使用句子转换器构建密集向量索引以实现语义相似性。
- 使用 Sparse Encoder 索引以通过最佳字段混合查询捕捉细致的语义关系。
- 开发混合查询(跨字段、最多字段、最佳字段、短语前缀),并与密集/稀疏索引结合,形成 Blended Retrievers。
- 为跨基准的 RAG 评估选择前六个(sextet)混合查询。
- 使用 FLAN-T5-XXL 评估 RAG,与非 Blended 基线和微调变体进行比较,使用 EM/F1 和 Top-k 检索指标。
实验结果
研究问题
- RQ1基于语义搜索的检索器与混合查询在不同数据集上的检索和 RAG 准确性有何影响?
- RQ2哪种索引类型与混合查询的组合能得到最佳检索性能,并在下游 RAG 质量上有何体现?
- RQ3Blended RAG 是否能够在无需数据集特定微调的情况下提升零-shot 问答性能?
- RQ4Blended Retrievers 的权衡有哪些(如密度与稀疏、元数据效应等),以及对实际部署的影响?
主要发现
- 利用 Sparse Encoder 与 Best Fields 的混合查询,在 Natural Questions (NQ) 上实现最高检索性能,top-10 准确率为 88.77%。
- 在 TREC-COVID 上,向量检索混合查询结合 Best Fields 在 score-2 相关性上达到 98% 的 top-10 准确率,超过基于关键字的方法。
- 对于 HotPotQA,由于计算限制,Cross Fields 与 Best Fields 搭配 Sparse Encoder 在子集上达到 65.70% 的 top-10 检索准确率。
- 检索器基准测试表明 Blended RAG 在 NQ 上的 NDCG@10 为 0.67(比 monoT5-3B 高 5.8%),在 TREC-COVID 上为 0.87(比 COCO-DR Large 高 8.2%)。
- SQuAD 检索结果表明密集向量(KNN)方法优于稀疏/向量方法,Blended RAG 实现显著提升。
- Blended RAG 在零-shot 设置下在 SQuAD 上达到 68% F1,在 Natural Questions (NQ) 上达到 42% EM,超越了许多经过调优的基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。