[論文レビュー] Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
Speculative RAG は、小型の専門RAGドラフターを用いて retrieved documents の多様なサブセットから複数のドラフトを生成し、一方でより大きな汎用LMが最良ドラフトを検証・選択することで、複数のRAGベンチマークで精度を向上させ、待機時間を削減します。
Retrieval augmented generation (RAG) combines the generative abilities of large language models (LLMs) with external knowledge sources to provide more accurate and up-to-date responses. Recent RAG advancements focus on improving retrieval outcomes through iterative LLM refinement or self-critique capabilities acquired through additional instruction tuning of LLMs. In this work, we introduce Speculative RAG - a framework that leverages a larger generalist LM to efficiently verify multiple RAG drafts produced in parallel by a smaller, distilled specialist LM. Each draft is generated from a distinct subset of retrieved documents, offering diverse perspectives on the evidence while reducing input token counts per draft. This approach enhances comprehension of each subset and mitigates potential position bias over long context. Our method accelerates RAG by delegating drafting to the smaller specialist LM, with the larger generalist LM performing a single verification pass over the drafts. Extensive experiments demonstrate that Speculative RAG achieves state-of-the-art performance with reduced latency on TriviaQA, MuSiQue, PopQA, PubHealth, and ARC-Challenge benchmarks. It notably enhances accuracy by up to 12.97% while reducing latency by 50.83% compared to conventional RAG systems on PubHealth.
研究の動機と目的
- 知識集約型QAにおけるRetrieval Augmented Generation (RAG) の効率性と精度の改善を動機づける。
- ドラフト作成を小型の専門LMへ、検証を大規模な汎用LMへオフロードするDivide-and-Conquerフレームワークを導入する。
- 長い retrieved context からの冗長性と位置バイアスを減少させつつ、事実的な根拠を保つ。
- 複数のベンチマークで最先端の性能と低いレイテンシを実証する。
提案手法
- retrieved documents を content-aware embeddings で k クラスターに分割し、各クラスターから 1 文書をサンプリングして m 個の多様なサブセットを形成する。
- 小型の RAG ドラフターが各サブセットに対して回答ドラフトと推論根拠を並列に生成する。
- より大きな汎用の検証者が、条件付き生成確率と自己省察プロンプトを用いて各ドラフト-根拠ペアをスコア付けする。
- 最も検証者スコアが高いドラフトを選択し、最終回答に統合する。
- RAGドラフターの訓練には、拡張された三つ組 (Q, D, A, E) に対する命令チューニングを用いて grounded なドラフトと根拠を生成させる(P(A, E | Q, D) を最大化)。
- 多様性は多視点サンプリングとクラスタリングによって異なる retrieved perspectives をカバーすることで保証される。
実験結果
リサーチクエスチョン
- RQ1小型の専門RAGドラフターが partitioned retrieval から高品質で多様なドラフトを生成し、より大きなLMがそれを効率的に検証できるか。
- RQ2推論根拠付きドラフトを用いた単一検証パスの一般LMは、標準的なRAGや自己批評アプローチより精度とレイテンシの点で優れているか。
- RQ3サンプリング戦略とスコアリング要素(ドラフト確率、自己包含、自己省察)が全体の性能にどのように影響するか。
主な発見
| RAG Method | Free-form | TriviaQA | MuSiQue | PubHealth | ARC-Challenge |
|---|---|---|---|---|---|
| Standard RAG, Mistral 7B | - | 54.15 | 16.71 | 34.85 | 42.75 |
| Standard RAG, Mixtral 8x7B | - | 59.85 | 19.16 | 37.08 | 48.72 |
| Standard RAG, Mistral-Instruct 7B | - | 67.11 | 17.99 | 42.15 | 47.70 |
| Standard RAG, Mixtral-Instruct 8x7B | - | 73.91 | 29.42 | 63.63 | 78.41 |
| Standard RAG, Alpaca 7B | - | 64.1 | - | 40.2 | 48.1 |
| Self-Reflective RAG (Self-RAG), Mistral 7B | - | 64.84 | 21.72 | 72.44 | 74.91 |
| Corrective RAG (CRAG), Mistral 7B | - | - | - | 59.04 | 74.87 |
| Self-CRAG, Mistral 7B | - | - | 72.85 | 75.26 | - |
| Speculative RAG (Drafter 7B alone) | 71.11 | 27.89 | 75.58 | 74.49 | - |
| Speculative RAG, Verifier-7B + Drafter-7B | 73.91 | 31.03 | 75.79 | 76.19 | - |
| Speculative RAG, Verifier-8x7B + Drafter-7B | 74.24 | 31.57 | 76.60 | 80.55 | - |
- Speculative RAG は TriviaQA、MuSiQue、PubHealth、ARC-Challenge の各データセットで標準RAGおよびいくつかの強化ベースラインを一貫して上回る。
- 指示付きの、命令チューニング済みドラフターを使用した検証者を導入すると、PubHealth で最大 12.97%、ARC-Challenge で 2.14% の精度向上をもたらす。
- 標準RAGと比べてレイテンシが低減し、PubHealth で最大 51% の高速化を実現。
- 命令チューニング済みドラフターは劇的に性能を向上させる(例:TriviaQA で 14.39%、PubHealth で 39.52%、Mixtral-8x7B と組み合わせた場合)。
- アブレーションにより、多様性を強化したサンプリングとドラフトと自己整合性/自己省察スコアの組み合わせが性能の要であることが示される。
- データセットを横断してレイテンシの利点は維持され、Speculative RAG はテンソル並列ベースラインより低レイテンシを達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。