[論文レビュー] ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter
ReFilter は RAG のトークンレベルのフィルタリングとゲート付きフュージョンを導入し、多数の取得候補を統合する際の頑健性と効率を向上させ、一般的な質問応答と生物医療QAのドメイン横断で高い性能を示す。ゼロショットのドメイン外性能も強化。
Retrieval-augmented generation (RAG) has become a dominant paradigm for grounding large language models (LLMs) with external evidence in knowledge-intensive question answering. A core design choice is how to fuse retrieved samples into the LLMs, where existing internal fusion approaches broadly fall into query-based fusion, parametric fusion, and latent-based fusion. Despite their effectiveness at modest retrieval scales, these methods often fail to scale gracefully as the number of retrieved candidates k increases: Larger k improves evidence coverage, yet realistic top-k retrieval inevitably contains irrelevant or redundant content and increases the inference cost. To address these limitations, we propose ReFilter, a novel latent-based fusion framework that performs token-level filtering and fusion. ReFilter consists of three key components: a context encoder for encoding context features, a gated filter for weighting each token, and a token fusion module for integrating the weighted token feature into the LLM's hidden states. Our experiments across four general-domain QA benchmarks show that ReFilter consistently achieves the best average performance under both in-domain adaptation and out-of-domain transfer. ReFilter further generalizes to five biomedical QA benchmarks in zero-shot transfer without domain fine-tuning, reaching 70.01% average accuracy with Qwen2.5-14B-Instruct.
研究の動機と目的
- RAG におけるトップ-k の取得がノイズ的証拠によって QA 性能を低下させるスケーラビリティのボトルネックに対処する。
- トークンをフィルタリングし、加重トークン特徴を LLM に統合する潜在ベースのフュージョンモジュールである ReFilter を提案する。
- ドメイン適応内およびドメイン外転送(ゼロショットの生物医療 QA を含む)での頑健性と効率性の向上を実証する。
- 一般的なトレーニングを用いた生物医療 QA 転送を含む、モデルスケールとドメイン間での一般化を示す。
提案手法
- 取得チャンクを LLM の隠れ空間のコンテキスト埋め込みに変換するコンテキストエンコーダを使用する。
- LLM の決定状態を条件として各トークンの重要度スコアを計算するゲート付きフィルタを適用する。
- トークンフュージョンモジュールを介して学習可能な強さ α を用いて、重み付きトークン特徴を特定の LLM 層にフュージョンする。
- 教師強制とゲートのスパース性正則化を用いた教師あり QA データで訓練し、選択的な証拠の利用を促進する。
- 効率性のためにチャンク特徴をキャッシュするオプションを提供し、長い入力プロンプトを伴わないバッチ処理を可能にする。
実験結果
リサーチクエスチョン
- RQ1トークンレベルのフィルタリングとゲート付きフュージョンは、トップ-k が増加する際のノイズの多いまたは冗長な取得コンテンツに対する RAG の頑健性を向上させるか。
- RQ2ReFilter はドメイン内適応およびドメイン外転送、特に生物医療領域を含む場合に、QA の性能を維持または向上させるか。
- RQ3プロンプトベースおよびパラメータベース系のフュージョン手法と比較して、性能・効率・頑健性の点でどの程度優れているか。
- RQ4トークンレベルのマスキングとゲーティングが全体の性能と頑健性にどの程度寄与しているか。
- RQ5ReFilter は複数のバックボーンモデルやスケールに渡って有効か。
主な発見
| Backbone | Method | 2WQA (In-Domain) | HPQA (In-Domain) | PopQA (In-Domain) | CWQ (In-Domain) | AVG (In-Domain) | 2WQA (Out-of-Domain) | HPQA (Out-of-Domain) | PopQA (Out-of-Domain) | CWQ (Out-of-Domain) | AVG (Out-of-Domain) | AVG-all |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Llama-3.2-1B-Instruct | Vanilla | 23.69 | 19.05 | 5.94 | 34.78 | 20.87 | - | - | - | - | 20.87 | |
| Llama-3.2-1B-Instruct | S-RAG | 22.38 | 29.13 | 20.29 | 32.01 | 25.95 | - | - | - | - | 25.95 | |
| Llama-3.2-1B-Instruct | PRAG | 24.47 | 20.39 | 23.07 | 35.17 | 25.78 | 21.58 | 18.79 | 19.59 | 31.21 | 24.28 | |
| Llama-3.2-1B-Instruct | DyPRAG | 23.67 | 22.98 | 12.56 | 35.51 | 23.68 | 22.87 | 20.98 | 10.47 | 32.32 | 21.66 | |
| Llama-3.2-1B-Instruct | Ours | 26.87 | 25.28 | 23.38 | 35.98 | 27.88 | 26.18 | 22.46 | 20.57 | 33.48 | 26.78 | |
| Llama-3-8B-Instruct | Vanilla | 31.99 | 22.32 | 14.27 | 43.31 | 27.97 | - | - | - | - | 27.97 | |
| Llama-3-8B-Instruct | S-RAG | 37.74 | 24.19 | 16.23 | 43.11 | 30.32 | - | - | - | - | 30.32 | |
| Llama-3-8B-Instruct | PRAG | 37.04 | 33.12 | 27.21 | 42.06 | 34.86 | 32.19 | 28.18 | 24.10 | 37.28 | 32.65 | |
| Llama-3-8B-Instruct | DyPRAG | 36.32 | 28.26 | 12.03 | 42.33 | 29.74 | 32.85 | 23.44 | 10.15 | 38.23 | 27.95 | |
| Llama-3-8B-Instruct | Ours | 38.42 | 35.32 | 27.38 | 46.49 | 36.90 | 34.28 | 32.19 | 23.87 | 42.75 | 35.09 | |
| Qwen2.5-1.5B-Instruct | Vanilla | 22.09 | 15.76 | 7.06 | 28.16 | 18.27 | - | - | - | - | 18.27 | |
| Qwen2.5-1.5B-Instruct | S-RAG | 22.65 | 16.22 | 9.77 | 26.09 | 18.68 | - | - | - | - | 18.68 | |
| Qwen2.5-1.5B-Instruct | PRAG | 27.32 | 16.16 | 19.95 | 28.23 | 22.92 | 23.18 | 15.76 | 13.64 | 26.45 | 21.34 | |
| Qwen2.5-1.5B-Instruct | DyPRAG | 24.26 | 19.37 | 7.02 | 30.28 | 20.23 | 21.86 | 14.72 | 5.21 | 24.17 | 18.36 | |
| Qwen2.5-1.5B-Instruct | Ours | 29.47 | 20.37 | 18.38 | 32.66 | 25.22 | 25.75 | 17.54 | 15.65 | 26.57 | 23.30 | |
| Qwen2.5-14B-Instruct | Vanilla | 32.16 | 25.94 | 24.84 | 50.13 | 33.27 | - | - | - | - | 33.27 | |
| Qwen2.5-14B-Instruct | S-RAG | 35.71 | 26.28 | 28.41 | 46.64 | 34.26 | - | - | - | - | 34.26 | |
| Qwen2.5-14B-Instruct | PRAG | 35.02 | 27.48 | 28.38 | 47.29 | 34.54 | 30.12 | 22.87 | 26.19 | 41.48 | 32.35 | |
| Qwen2.5-14B-Instruct | DyPRAG | 33.20 | 26.59 | 26.37 | 45.87 | 33.01 | 29.19 | 24.38 | 23.38 | 42.32 | 31.41 | |
| Qwen2.5-14B-Instruct | Ours | 39.23 | 28.46 | 30.37 | 50.32 | 37.10 | 35.28 | 28.36 | 27.22 | 45.87 | 35.64 |
- ReFilter は、ドメイン内適応とドメイン外転送の両方で、4つの一般ドメイン QA ベンチマーク全体で平均性能が最も高い。
- Qwen2.5-14B-Instruct におけるゼロショットの生物医療 QA 転送は平均精度 70.01% に達し、ベースラインを上回る。
- アブレーション解析により、トークンレベルの注意(マスク)が最も影響力のある要素であり、除去すると顕著に性能が低下する。
- ReFilter は効率性を維持し、ベースラインと比較してレイテンシとストレージコストの競争力を保ち、モデルサイズに依存してスケールする。
- 頑健性テストでは、S-RAG、PRAG、DyPRAG よりもトップ-k の変動とノイズに対する感度が低いことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。