[論文レビュー] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
RankRAG は単一の LLM を微調整して、リトリーバル強化生成(RAG)フレームワークで文脈のランク付けと回答生成を同時に実行できるようにし、関連文脈のリコールと生成品質の両方を、ドメイン特異的な微調整なしに生物医療分野を含む複数のベンチマークで改善する。
Large language models (LLMs) typically utilize the top-k contexts from a retriever in retrieval-augmented generation (RAG). In this work, we propose a novel instruction fine-tuning framework RankRAG, which instruction-tunes a single LLM for the dual purpose of context ranking and answer generation in RAG. In particular, the instruction-tuned LLMs work surprisingly well by adding a small fraction of ranking data into the training blend, and outperform existing expert ranking models, including the same LLM exclusively fine-tuned on a large amount of ranking data. For generation, we compare our model with many strong baselines, including GPT-4-0613, GPT-4-turbo-2024-0409, and ChatQA-1.5, an open-sourced model with the state-of-the-art performance on RAG benchmarks. Specifically, our Llama3-RankRAG significantly outperforms Llama3-ChatQA-1.5 and GPT-4 models on nine knowledge-intensive benchmarks. In addition, it also performs comparably to GPT-4 on five RAG benchmarks in the biomedical domain without instruction fine-tuning on biomedical data, demonstrating its superb capability for generalization to new domains.
研究の動機と目的
- 動機: 大量の文脈集合が生成品質を損なうなど、標準的なRAGパイプラインの制約と、リランキングの一般化が限られている点に対処する。
- 目標: 単一のLLM が高いリコールの文脈ランク付けと高品質な回答生成をRAGで行える指示チューニングパイプラインを設計する。
- アプローチ: 文脈豊富なQAデータ、リトリーブ拡張 QA データ、そしてランキングデータをRAG用の統一指示チューニングフレームワークに組み込む。
- ランキングデータのごく一部が、驚くべきことにランキング性能を向上させ、ドメインを横断して一般化することを実証する。
提案手法
- Stage-I: 指示従遵用を可能とする大規模な指示フォロー用データブレンド(128K例)を用いた supervised fine-tuning (SFT)。
- Stage-II: 5つのデータストリームを統合した統一指示チューニング: 文脈豊富 QA、リトリーブ拡張 QA、文脈ランキング、リトリーブ拡張ランキング、Stage-I SFTデータ。
- すべてのタスクを統一した (x, c, y) QA 形式にキャストして、タスク間の転移と相互強化を可能にする。
- 推論は retrieve-rerank-generate パイプラインを使用: 上位Nを取得し、RankRAGで上位Kにランク付けし、その後上位Kの文脈から回答を生成。
- GPT-4-seriesモデルを含む強力なベースラインおよび公開ベースラインに対する評価を、9つの一般ドメインベンチマークと5つの生物医療ベンチマークで実施。
実験結果
リサーチクエスチョン
- RQ1単一のLLMを訓練して、RAG設定で文脈を効果的にランク付けし、正確な回答を生成できるか。
- RQ2ランキングデータを指示チューニングに組み込むと、ドメイン特異的な微調整なしに、取得品質とドメイン間の一般化(一般および生物医療)を改善するか。
- RQ3RankRAG は、オープンドメインQA、事実検証、対話型QAといった知識集約タスクをゼロショット設定で、強力なベースラインと比較してどのように性能を示すか。
- RQ4RankRAG は異なるリトリーバーや取得文脈の数の変化に対して堅牢か。
- RQ5再ランク付けステップが効率と精度に与える影響はどの程度か。
主な発見
- RankRAG は8B規模で既存のRAG手法を一貫して上回り、ChatQA-1.5を含むより大規模なベースラインと競合する、複数のデータセットで。
- RankRAG はより難易度の高いQAデータセット(例:長尾・マルチホップタスク)でより大きな利得を示し、リコールと関連性を改善するランキングの効果的な活用を示している。
- ドメイン特異的な生物医療ベンチマークでは、RankRAG (8B) が Meditron 70B を上回り、RankRAG 70B はいくつかの指標で GPT-4 の性能に近づく。ゼロショットの横断的な一般化を示している。
- アブレーション研究は、文脈ランキング、リトリーブ拡張QAデータ、リトリーブ拡張ランキングデータのそれぞれが性能向上に寄与し、再ランキングが追加の利得をもたらすことを確認。
- RankRAG は異なるリトリーバー(例:DPR、Contriever-MS MARCO)に対して堅牢で、初期取得品質が異なる場合でも ChatQA-1.5 に対する優位性を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。