[論文レビュー] RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation
RQ-RAGは7B Llama2モデルをトレーニングし、検索強化生成のためのクエリを再表現・分解・曖昧さ解消する。単一ホップQAで最先端を達成し、マルチホップQAで顕著な向上を得ている。
Large Language Models (LLMs) exhibit remarkable capabilities but are prone to generating inaccurate or hallucinatory responses. This limitation stems from their reliance on vast pretraining datasets, making them susceptible to errors in unseen scenarios. To tackle these challenges, Retrieval-Augmented Generation (RAG) addresses this by incorporating external, relevant documents into the response generation process, thus leveraging non-parametric knowledge alongside LLMs' in-context learning abilities. However, existing RAG implementations primarily focus on initial input for context retrieval, overlooking the nuances of ambiguous or complex queries that necessitate further clarification or decomposition for accurate responses. To this end, we propose learning to Refine Query for Retrieval Augmented Generation (RQ-RAG) in this paper, endeavoring to enhance the model by equipping it with capabilities for explicit rewriting, decomposition, and disambiguation. Our experimental results indicate that our method, when applied to a 7B Llama2 model, surpasses the previous state-of-the-art (SOTA) by an average of 1.9\% across three single-hop QA datasets, and also demonstrates enhanced performance in handling complex, multi-hop QA datasets. Our code is available at https://github.com/chanchimin/RQ-RAG.
研究の動機と目的
- ユーザークエリの曖昧さと複雑さに対処することによって、retrieval-augmented generation の改善の必要性を動機づける。
- 明示的なクエリの書き換え・分解・曖昧さ解消を可能にするトレーニングフレームワークを開発する。
- クエリを洗練させ、取得した文書を効果的に活用するようモデルを訓練するデータセットと、クレアなトレーニング手法を作成する。
- 複数のQAベンチマークで従来のSOTA手法を上回る実証的な向上を示す。
提案手法
- 元の入力出力ペアを、洗練アクションと取得ドキュメントを含むシーケンスに変換するデータセットを構築する( rewrite, decompose, disambiguate)。
- refined queries and contextually grounded answers を生成する注釈を自動化するために ChatGPT を用いる。
- p(y|q1,d1,...,x) を最大化する自己回帰目的で7B Llama2モデルを訓練する。
- 木型デコーディングサンプリング戦略を実装し、3つの軌道選択手法を用いる: perplexityベース、信頼度ベース、アンサンブルベース。
- どの軌道が正しい答えを出すかを追跡することによって上界を評価する。
実験結果
リサーチクエスチョン
- RQ1モデルはどのようにしてクエリを再表現・分解・曖昧さ解消することを学び、 retrieval-augmented generation を改善できるか?
- RQ2洗練されたクエリ軌道は、単一ホップおよびマルチホップのタスクでベースラインよりQA性能を改善するか?
- RQ3RAGにおけるクエリ改良の最良結果を生むデータソースとサンプリング戦略は何か?
- RQ4複雑な質問に答えるためのクエリ改良軌道の上限ポテンシャルは何か?
主な発見
- RQ-RAGは単一ホップQAタスクでSelf-RAGおよびSAILを上回り、ARC_C、POPQA、OBQAの平均で prior SOTAベースラインを1.9%上回る改善を示した。
- マルチホップQAタスクでは、強力なベースラインに対して平均22.6%の顕著な向上をもたらし、より小さな7BバックボーンでもChain-of-Thought/Chain-of-Note アプローチを上回る。
- 取得した文脈に基づいて回答を再生成する(元の回答の保持を0%にする)方が、元の回答の一部を保持するより高い向上を提供する。
- 推論時のデータソースに対して頑健性を示し、DuckDuckGo、Wikipedia、Bingを取得ソースとして使用した場合でも性能のばらつきが最小である一方、いくつかのベースラインとは異なる。
- 本手法は高い潜在的上限を示し、正しい軌道が選択されれば、システムははるかに高い正確さを達成できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。