[論文レビュー] Query Rewriting for Retrieval-Augmented Large Language Models
本論文は Rewrite-Retrieve-Read という枠組みを提案し、凍結済みリトリーバーと LLM リーダーの前に訓練可能なクエリリライターを置き、リワード学習でリライターを微調整して取得強化型 LLM の性能を向上させる。
Large Language Models (LLMs) play powerful, black-box readers in the retrieve-then-read pipeline, making remarkable progress in knowledge-intensive tasks. This work introduces a new framework, Rewrite-Retrieve-Read instead of the previous retrieve-then-read for the retrieval-augmented LLMs from the perspective of the query rewriting. Unlike prior studies focusing on adapting either the retriever or the reader, our approach pays attention to the adaptation of the search query itself, for there is inevitably a gap between the input text and the needed knowledge in retrieval. We first prompt an LLM to generate the query, then use a web search engine to retrieve contexts. Furthermore, to better align the query to the frozen modules, we propose a trainable scheme for our pipeline. A small language model is adopted as a trainable rewriter to cater to the black-box LLM reader. The rewriter is trained using the feedback of the LLM reader by reinforcement learning. Evaluation is conducted on downstream tasks, open-domain QA and multiple-choice QA. Experiments results show consistent performance improvement, indicating that our framework is proven effective and scalable, and brings a new framework for retrieval-augmented LLM.
研究の動機と目的
- 入力テキストと取得に必要な知識とのギャップを、取得強化型 LLM において動機づけし、解消する。
- 取得前にクエリの書き換えステップを前置する Rewrite-Retrieve-Read パイプラインを提案する。
- 凍結されたリーダーとリトリーバーと整合させるため、強化学習で訓練される小規模言語モデルに基づく訓練可能なリライターを導入する。
- 知識集約的なタスクに対する本手法の有効性とスケーラビリティを実証する。
提案手法
- 入力をクエリへ書き換え、ウェブ検索エンジンで関連文脈を取得し、回答を予測するという3ステップの Rewrite-Retrieve-Read パイプラインを定義する。
- 訓練可能なリライター G_theta を実装(T5-large から初期化)し、疑似データでウォームアップさせた後、LLM リーダーの性能から派生した報酬を用いて強化学習でファインチューニングする。
- 数ショットプロンプトを用いて LLM からクエリを誘発し、ベースラインのリライターとして比較する。
- PPO ベースのポリシー最適化でリライターを訓練し、初期化近傍を保つための値関数ネットワークと KL 正則化を含む。
- ChatGPT と Vicuna-13B をリーダーとして用い、オープンドメイン QA データセット(HotPotQA, AmbigNQ, PopQA)および多肢選択型 QA(MMLU)で評価する。
- リトリーバーとして Bing を、文書フィルタリングには BM25 を使用し、スニペットベースと URL ベースの取得バリアントの両方を用いる。
実験結果
リサーチクエスチョン
- RQ1クエリ rewriting ステップを追加することで、標準の retrieve-then-read パイプラインを超える取得強化型 LLM の性能向上が得られるだろうか?
- RQ2強化学習で最適化された訓練可能なリライターは、凍結された LLM のリライターや直接的なプロンプトベースの書き換えとどう比較されるか?
- RQ3ブラックボックス LLM リーダーを用いた場合、クエリ書き換えはオープンドメイン QA および多肢選択 QA の精度にどのような影響を与えるか?
主な発見
- クエリの書き換えは、直接的または標準的な retrieve-then-read ベースラインと比較して、オープンドメイン QA データセットで取得強化型 LLM の性能を一貫して向上させる。
- 訓練可能なリライターは多くの場合、標準的な retrieve-then-read セットアップを上回り、いくつかのタスクで LLM ベースのリライターの性能に近づく、または同等となることがある。
- 複数データセット評価では、利得はタスクとリーダーによって異なる。いくつかのデータセットでは LLM リライターが依然として優れている一方、訓練可能なリライターはリソース使用を抑えつつ競争力のある利得を提供する。
- 多肢選択型 QA (MMLU) では、書き換え手法がほとんどのカテゴリで利得を生み出し、リーダーとして Vicuna-13B を使用する場合に ChatGPT よりも改善が大きい。
- 強化学習で訓練された学習済みリライターは、プロンプトベースのベースラインよりも凍結リトリーバーとリーダーに対してクエリをより適切に適合させることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。