Skip to main content
QUICK REVIEW

[論文レビュー] Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers

Kunal Sawarkar, Abhilasha Mangal|arXiv (Cornell University)|Mar 22, 2024
Topic Modeling被引用数 7
ひとこと要約

この論文は Blended RAG を紹介します。これは、複数のインデックスにわたる意味検索とハイブリッドクエリ戦略を組み合わせてリトリーバーと RAG の精度を向上させ、zero-shot 設定で NQ、TREC-COVID、SQuAD などの新しいベンチマークを達成します。

ABSTRACT

Retrieval-Augmented Generation (RAG) is a prevalent approach to infuse a private knowledge base of documents with Large Language Models (LLM) to build Generative Q\&A (Question-Answering) systems. However, RAG accuracy becomes increasingly challenging as the corpus of documents scales up, with Retrievers playing an outsized role in the overall RAG accuracy by extracting the most relevant document from the corpus to provide context to the LLM. In this paper, we propose the 'Blended RAG' method of leveraging semantic search techniques, such as Dense Vector indexes and Sparse Encoder indexes, blended with hybrid query strategies. Our study achieves better retrieval results and sets new benchmarks for IR (Information Retrieval) datasets like NQ and TREC-COVID datasets. We further extend such a 'Blended Retriever' to the RAG system to demonstrate far superior results on Generative Q\&A datasets like SQUAD, even surpassing fine-tuning performance.

研究の動機と目的

  • コーパスサイズが大きくなるにつれて RAG の精度を向上させる動機づけと、リトリーバの品質が全体性能を支配する点を説明する。
  • semantic search(dense/sparse インデックス)と hybrid queries を融合させた Blended Retriever 戦略を提案する。
  • 複数の IR および QA データセットにわたって Blended Retriever と Blended RAG を評価し、新たなベンチマークを確立する。
  • データセット固有のファインチューニングなしで zero-shot RAG の性能向上を実証する。

提案手法

  • キーワードベースの検索をベースラインとして BM25 を使用する。
  • 意味的類似性のために sentence transformers を用いて dense ベクトルインデックスを構築する。
  • Best-fields ヒ hybrid queries を用いて微妙な意味関係を捉える Sparse Encoder インデックスを活用する。
  • ハイブリッドクエリ(cross fields、most fields、best fields、phrase prefix)を開発し、dense/sparse インデックスと組み合わせて Blended Retrievers を形成する。
  • ベンチマーク全体で RAG 評価のトップ6( sextet )のハイブリッドクエリを選択する。
  • FLAN-T5-XXL を用いて RAG を評価し、非 Blended ベースラインやファインチューニング済みバリアントと比較し、EM/F1 および Top-k リトリーバル指標を用いる。

実験結果

リサーチクエスチョン

  • RQ1意味検索ベースのリトリーバとハイブリッドクエリは、多様なデータセット全体でリトリーバの精度と RAG の精度にどのような影響を与えるか?
  • RQ2どのインデックス種別とハイブリッドクエリの組み合わせが最も良いリトリーバ性能を生み出し、それが下流の RAG 質にどのように反映されるか?
  • RQ3Blended RAG はデータセット固有のファインチューニングなしで zero-shot の Q&A 性能を向上させられるか?
  • RQ4Blended Retrievers の密度と疎性、メタデータの影響など、現実的な導入におけるトレードオフは何か?

主な発見

  • Sparse Encoder と Best Fields を組み合わせたハイブリッドクエリが Natural Questions (NQ) でトップリトリーバル性能を達成し、top-10 精度は 88.77% である。
  • TREC-COVID では Vector-search ハイブリッドクエリと Best Fields が score-2 関連性で top-10 精度 98% に達し、キーワードベース法を上回る。
  • HotPotQA では Cross Fields と Best Fields を Sparse Encoder と組み合わせることで、計算リソース制約のためサブセット上で top-10 リトリーバル精度が 65.70% に達する。
  • Retriever ベンチマークによれば Blended RAG は NQ で 0.67 の NDCG@10(monoT5-3B より 5.8% 上)を、TREC-COVID で 0.87(COCO-DR Large より 8.2% 上)を達成する。
  • SQuAD のリトリーバル結果は dense vector (KNN) アプローチが sparse/vector よりも優れており、Blended RAG は有意な改善を達成する。
  • Blended RAG は zero-shot 設定で SQuAD の F1 が 68%、Natural Questions (NQ) の EM が 42% を達成し、多くのチューニング済みベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。