[論文レビュー] Learning to Filter Context for Retrieval-Augmented Generation
FilCo は StrInc、Lexical overlap、CXMI 指標に基づく文脈フィルタを学習することで、ノイズと計算を削減しつつ、6つの知識集約タスクの性能を改善するための取得拡張生成を提案する。
On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.
研究の動機と目的
- retrieval-augmented generation における文脈品質の向上が irrelevant passages への依存を減らす必要性を動機付ける。
- 三つの指標に導かれた文レベルの文脈フィルタリング手法 FilCo を提案する(有用なテキストスパンを選択)。
- 学習された文脈フィルタリングが六つの知識集約データセット全体で性能を改善することを示す。
- Silver-standard フィルタリングと比較して substantial な input-length の削減と同等または優れた利得を示す。
- タスクごとにどのフィルタリング信号が最も効果的かの指針を提供し、マルチパスの評価へ拡張する。
提案手法
- Retrieved passages から文レベルのテキストスパンを選択する微細なフィルタリング関数を定義する。
- 三つの oracle 風のフィルタリング指標を用いる:StrInc(スパンが出力を含むかどうか)、Lexical overlap(例/出力との unigram 重複)、CXMI(文脈が追加されたときの生成確率の変化)。
- q と取得パッセージ P からフィルタリング済み文脈 t_silver を予測する文脈フィルタリングモデル M_ctx を supervise にオラクルでフィルタリングされた信号を用いて訓練する。
- フィルタリング済み文脈 t_silver を与えた状態でターゲット o を生成する生成モデル M_gen を訓練する(訓練時は t_silver、推論時は t_pred を用いる)。
- テスト時には M_ctx で t_pred を生成し、q と結合した t_pred を M_gen に入力して o を出力する。
- FilCo(文レベルフィルタリング)を Full-context augmentation および passage-level filtering(Psg)と比較し、Silver 上限(t_silver を直接使用)を含む比較を行う。

実験結果
リサーチクエスチョン
- RQ1 文レベルの文脈フィルタリングは、複数の知識集約タスクにおいて取得拡張生成の出力の信ぴょう性と正確さを改善できるか。
- RQ2 どのフィルタリング信号(StrInc、Lexical、CXMI)が、抽出型 QA、要約型 QA、事実検証、対話といった異なるタスクタイプに最も適しているか。
- RQ3 学習されたフィルタリングは入力長と計算コストを削減しつつ、エンドタスクの性能を損なわず、しばしば改善できるか。
- RQ4 マルチパッセージ設定において、FilCo は単一パッセージフィルタリングおよび全文脈ベースのベースラインと比較してどのように機能するか。
主な発見
- FilCo は、抽出型 QA、マルチホップ QA、長文 QA、事実検証、対話生成を含む六つのタスクで Full-context augmentation および passage-level filtering を一貫して上回る。
- FilCo は、タスク間で入力長を 44-64% 減少させつつ、silver-filtered contexts と同等かそれ以上のエンドタスク結果を達成する。
- 異なるタスクは異なるフィルタリング信号から恩恵を受ける:抽出型 QA には StrInc、対話には Lexical、複雑なタスク(マルチホップ QA や事実検証)には CXMI。
- FilCo はエンド生成指標を顕著に改善する(例:Flan-T5 および Llama2 で NQ EM がそれぞれ 4.3 と 8.6、ELI5 F1 が 0.6 と 2.6、FEVER 精度がそれぞれ 0.6 と 3.5 増加)。
- マルチパッセージ設定では FilCo はベースラインに対して優位性を維持し、トップ5 パッセージを使用した場合にいくつかのタスクで追加の利得が生じる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。