QUICK REVIEW

[论文解读] ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter

Yixin Chen, Ying Xiong|arXiv (Cornell University)|Feb 13, 2026

Topic Modeling被引用 0

一句话总结

ReFilter 引入令牌级筛选和门控融合，用于RAG，提升在整合大量检索候选内容时的鲁棒性和效率，适用于通用和生物医学问答，并在领域内和零-shot 的域外性能上表现出色。

ABSTRACT

Retrieval-augmented generation (RAG) has become a dominant paradigm for grounding large language models (LLMs) with external evidence in knowledge-intensive question answering. A core design choice is how to fuse retrieved samples into the LLMs, where existing internal fusion approaches broadly fall into query-based fusion, parametric fusion, and latent-based fusion. Despite their effectiveness at modest retrieval scales, these methods often fail to scale gracefully as the number of retrieved candidates k increases: Larger k improves evidence coverage, yet realistic top-k retrieval inevitably contains irrelevant or redundant content and increases the inference cost. To address these limitations, we propose ReFilter, a novel latent-based fusion framework that performs token-level filtering and fusion. ReFilter consists of three key components: a context encoder for encoding context features, a gated filter for weighting each token, and a token fusion module for integrating the weighted token feature into the LLM's hidden states. Our experiments across four general-domain QA benchmarks show that ReFilter consistently achieves the best average performance under both in-domain adaptation and out-of-domain transfer. ReFilter further generalizes to five biomedical QA benchmarks in zero-shot transfer without domain fine-tuning, reaching 70.01% average accuracy with Qwen2.5-14B-Instruct.

研究动机与目标

解决RAG中随着top-k检索增加而导致噪声证据降维的可扩展性瓶颈。
提出 ReFilter，一种潜在基的融合模块，筛选令牌并将加权的令牌特征融入到LLM。
在域内自适应和域外迁移（包括零-shot 生物医学问答）中展示鲁棒性和效率提升。
展示跨模型规模与跨领域的泛化能力，包括用于生物医学问答迁移的通用训练。

提出的方法

使用上下文编码器将检索到的片段转换为在LLM隐藏空间中的上下文嵌入。
应用门控筛选器，基于LLM决策状态条件化地计算每个令牌的重要性分数。
通过具有可学习强度α的令牌融合模块，将加权后的令牌特征融合到特定的LLM层。
使用教师 forcing 的监督问答数据进行训练，并结合门控稀疏化正则化，以鼓励对证据的选择性利用。
可选地缓存片段特征以提升效率并实现对长输入提示的批处理。

实验结果

研究问题

RQ1在top-k 增长时，令牌级筛选和门控融合是否能提高对噪声或冗余检索内容的鲁棒性？
RQ2在域内自适应和域外迁移（包括生物医学领域）下，ReFilter 是否能维持或提升问答性能？
RQ3与基于提示和基于参数的融合方法相比，ReFilter 在性能、效率和鲁棒性方面的表现如何？
RQ4令牌级掩蔽与门控对整体性能和鲁棒性的贡献有多大？
RQ5ReFilter 是否在多种主干模型和规模下均有效？

主要发现

ReFilter 在四个通用领域问答基准上，在域内自适应和域外迁移中均实现最佳平均性能。
零-shot 生物医学问答迁移在 Qwen2.5-14B-Instruct 上达到 70.01% 的平均正确率，超过基线。
消融实验显示令牌级注意力（掩蔽）是最具影响力的组件，移除后性能显著下降。
ReFilter 保持高效性，与基线相比在延迟和存储成本方面具有竞争力，并且可扩展到不同模型规模。
在鲁棒性测试中，ReFilter 对 top-k 变化和噪声的敏感性低于 S-RAG、PRAG 和 DyPRAG。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。