QUICK REVIEW

[논문 리뷰] ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter

Yixin Chen, Ying Xiong|arXiv (Cornell University)|2026. 02. 13.

Topic Modeling인용 수 0

한 줄 요약

ReFilter는 RAG에 토큰 수준 필터링과 게이티드 퓨전을 도입하여 다양한 검색 후보를 일반 및 생물의학 QA 전반에 걸쳐 통합할 때 강건성과 효율성을 향상시키며, 도메인 내에서 강력하고 제로샷으로 아웃-오브-도메인에서도 성능이 우수합니다.

ABSTRACT

Retrieval-augmented generation (RAG) has become a dominant paradigm for grounding large language models (LLMs) with external evidence in knowledge-intensive question answering. A core design choice is how to fuse retrieved samples into the LLMs, where existing internal fusion approaches broadly fall into query-based fusion, parametric fusion, and latent-based fusion. Despite their effectiveness at modest retrieval scales, these methods often fail to scale gracefully as the number of retrieved candidates k increases: Larger k improves evidence coverage, yet realistic top-k retrieval inevitably contains irrelevant or redundant content and increases the inference cost. To address these limitations, we propose ReFilter, a novel latent-based fusion framework that performs token-level filtering and fusion. ReFilter consists of three key components: a context encoder for encoding context features, a gated filter for weighting each token, and a token fusion module for integrating the weighted token feature into the LLM's hidden states. Our experiments across four general-domain QA benchmarks show that ReFilter consistently achieves the best average performance under both in-domain adaptation and out-of-domain transfer. ReFilter further generalizes to five biomedical QA benchmarks in zero-shot transfer without domain fine-tuning, reaching 70.01% average accuracy with Qwen2.5-14B-Instruct.

연구 동기 및 목표

RAG에서 top-k 검색이 증가함에 따라 노이즈가 있는 증거로 인해 QA 성능이 저하되는 확장성 병목 문제를 해결한다.
토큰을 필터링하고 가중된 토큰 특징을 LLM에 융합하는 잠재 기반(잠재 기반) 퓨전 모듈인 ReFilter를 제안한다.
도메인 내 적응 및 아웃-오브-도메인 전이에서의 강건성과 효율성 향상을 입증하며 제로샷 생물의학 QA 포함.
일반적인 학습을 이용한 의료 도메인 전이 포함하여 모델 규모와 도메인 전반에 걸친 일반화를 보여준다.

제안 방법

retrieved chunks를 LLM 은닉 공간에서 컨텍스트 임베딩으로 변환하기 위해 컨텍스트 인코더를 사용한다.
LLM 의 결정 상태에 조건화된 per-token 중요도 점수를 계산하기 위해 게이트 필터를 적용한다.
학습 가능한 강도 α를 가진 토큰 융합 모듈을 통해 가중된 토큰 특징을 특정 LLM 계층에 융합한다.
교사 강제와 게이트 희소성 정규화를 사용한 감독 학습 QA 데이터로 학습하여 선택적 증거 사용을 촉진한다.
효율성을 위해 청크 특징을 캐시하고 긴 입력 프롬프트 없이 배치를 가능하게 한다.

실험 결과

연구 질문

RQ1토큰 수준의 필터링과 게이트드 퓨전이 top-k 증가에 따라 노이즈가 많거나 중복된 검색 콘텐츠에 대해 RAG의 강건성을 향상시킬 수 있는가?
RQ2ReFilter는 도메인 내 적응 및 도메인 간 전이(생물의학 도메인 포함)에서 QA 성능을 유지하거나 향상시키는가?
RQ3성능, 효율성, 강건성 측면에서 프롬프트 기반 및 파라미터 기반 퓨전 방법과 비교하여 ReFilter는 어떠한가?
RQ4토큰 수준 마스킹과 게이팅이 전반적 성능과 강건성에 어떤 기여를 하는가?
RQ5여러 백본 모델 및 스케일에서 ReFilter가 효과적인가?

주요 결과

ReFilter는 도메인 일반 네 가지 벤치마크에서 도메인 적응 및 아웃-오브-도메인 전이 모두에서 평균 성능을 최상으로 달성했다.
Qwen2.5-14B-Instruct의 제로샷 생의학 QA 전이는 평균 정확도 70.01%에 도달하며 기준치를 상회했다.
Ablation 분석에서 토큰 수준 주의(mask)이 가장 영향력 있는 구성 요소로 나타났고 제거 시 유의한 성능 저하가 발생했다.
ReFilter는 효율성을 유지하며 벤치마크 대비 대기 시간 및 저장 비용이 경쟁력을 가지며 모델 규모에 따라 확장된다.
강건성 테스트에서 ReFilter는 top-k 변화 및 잡음에 대한 민감도가 S-RAG, PRAG, DyPRAG보다 낮았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.