[논문 리뷰] ReFilter: Improving Robustness of Retrieval-Augmented Generation via Gated Filter
ReFilter는 RAG에 토큰 수준 필터링과 게이티드 퓨전을 도입하여 다양한 검색 후보를 일반 및 생물의학 QA 전반에 걸쳐 통합할 때 강건성과 효율성을 향상시키며, 도메인 내에서 강력하고 제로샷으로 아웃-오브-도메인에서도 성능이 우수합니다.
Retrieval-augmented generation (RAG) has become a dominant paradigm for grounding large language models (LLMs) with external evidence in knowledge-intensive question answering. A core design choice is how to fuse retrieved samples into the LLMs, where existing internal fusion approaches broadly fall into query-based fusion, parametric fusion, and latent-based fusion. Despite their effectiveness at modest retrieval scales, these methods often fail to scale gracefully as the number of retrieved candidates k increases: Larger k improves evidence coverage, yet realistic top-k retrieval inevitably contains irrelevant or redundant content and increases the inference cost. To address these limitations, we propose ReFilter, a novel latent-based fusion framework that performs token-level filtering and fusion. ReFilter consists of three key components: a context encoder for encoding context features, a gated filter for weighting each token, and a token fusion module for integrating the weighted token feature into the LLM's hidden states. Our experiments across four general-domain QA benchmarks show that ReFilter consistently achieves the best average performance under both in-domain adaptation and out-of-domain transfer. ReFilter further generalizes to five biomedical QA benchmarks in zero-shot transfer without domain fine-tuning, reaching 70.01% average accuracy with Qwen2.5-14B-Instruct.
연구 동기 및 목표
- RAG에서 top-k 검색이 증가함에 따라 노이즈가 있는 증거로 인해 QA 성능이 저하되는 확장성 병목 문제를 해결한다.
- 토큰을 필터링하고 가중된 토큰 특징을 LLM에 융합하는 잠재 기반(잠재 기반) 퓨전 모듈인 ReFilter를 제안한다.
- 도메인 내 적응 및 아웃-오브-도메인 전이에서의 강건성과 효율성 향상을 입증하며 제로샷 생물의학 QA 포함.
- 일반적인 학습을 이용한 의료 도메인 전이 포함하여 모델 규모와 도메인 전반에 걸친 일반화를 보여준다.
제안 방법
- retrieved chunks를 LLM 은닉 공간에서 컨텍스트 임베딩으로 변환하기 위해 컨텍스트 인코더를 사용한다.
- LLM 의 결정 상태에 조건화된 per-token 중요도 점수를 계산하기 위해 게이트 필터를 적용한다.
- 학습 가능한 강도 α를 가진 토큰 융합 모듈을 통해 가중된 토큰 특징을 특정 LLM 계층에 융합한다.
- 교사 강제와 게이트 희소성 정규화를 사용한 감독 학습 QA 데이터로 학습하여 선택적 증거 사용을 촉진한다.
- 효율성을 위해 청크 특징을 캐시하고 긴 입력 프롬프트 없이 배치를 가능하게 한다.
실험 결과
연구 질문
- RQ1토큰 수준의 필터링과 게이트드 퓨전이 top-k 증가에 따라 노이즈가 많거나 중복된 검색 콘텐츠에 대해 RAG의 강건성을 향상시킬 수 있는가?
- RQ2ReFilter는 도메인 내 적응 및 도메인 간 전이(생물의학 도메인 포함)에서 QA 성능을 유지하거나 향상시키는가?
- RQ3성능, 효율성, 강건성 측면에서 프롬프트 기반 및 파라미터 기반 퓨전 방법과 비교하여 ReFilter는 어떠한가?
- RQ4토큰 수준 마스킹과 게이팅이 전반적 성능과 강건성에 어떤 기여를 하는가?
- RQ5여러 백본 모델 및 스케일에서 ReFilter가 효과적인가?
주요 결과
- ReFilter는 도메인 일반 네 가지 벤치마크에서 도메인 적응 및 아웃-오브-도메인 전이 모두에서 평균 성능을 최상으로 달성했다.
- Qwen2.5-14B-Instruct의 제로샷 생의학 QA 전이는 평균 정확도 70.01%에 도달하며 기준치를 상회했다.
- Ablation 분석에서 토큰 수준 주의(mask)이 가장 영향력 있는 구성 요소로 나타났고 제거 시 유의한 성능 저하가 발생했다.
- ReFilter는 효율성을 유지하며 벤치마크 대비 대기 시간 및 저장 비용이 경쟁력을 가지며 모델 규모에 따라 확장된다.
- 강건성 테스트에서 ReFilter는 top-k 변화 및 잡음에 대한 민감도가 S-RAG, PRAG, DyPRAG보다 낮았다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.