QUICK REVIEW

[논문 리뷰] Learning to Filter Context for Retrieval-Augmented Generation

Zhiruo Wang, Jun Araki|arXiv (Cornell University)|2023. 11. 14.

Topic Modeling인용 수 8

한 줄 요약

FilCo는 문장 수준 컨텍스트 필터링을 제안하여 StrInc, Lexical overlap, CXMI 측정치를 기반으로 컨텍스트 필터를 학습하고 노이즈와 계산량을 줄이면서 지식 집중적 6개 작업의 성능을 향상시킵니다.

ABSTRACT

On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.

연구 동기 및 목표

검색 증강 생성에서 맥락 품질을 향상시켜 무관한 구절에 대한 의존도를 줄일 필요성을 동기 부여한다.
세 가지 측정치에 의해 안내되는 문장 수준 컨텍스트 필터링 접근법 FilCo를 제안하고 유용한 텍스트 구절을 선택한다.
학습된 컨텍스트 필터링이 여섯 개의 지식 집약적 데이터 세트에서 성능을 향상시킨다는 것을 보인다.
실질적인 입력 길이 감소와 실버 표준 필터링과 비교해 동등하거나 우수한 이득을 입증한다.
각 작업별로 어떤 필터링 신호가 가장 잘 작동하는지에 대한 가이드를 제공하고 다중 구절로 확장된 평가를 수행한다.

제안 방법

검색된 구절에서 문장 수준의 텍스트 구절을 선택하기 위한 미세한 필터링 함수를 정의한다.
세 가지 오라클 유사 필터링 측정치를 사용한다: StrInc(구절이 출력물을 포함하는지 여부), Lexical overlap(예시/출력과의 유니그램 중복), CXMI(맥락이 추가될 때 생성 확률의 변화).
oracle-filtered 신호를 감독 신호로 사용하여 q와 검색된 구절 P로부터 필터링된 컨텍스트 t_silver를 예측하도록 M_ctx라는 컨텍스트 필터링 모델을 학습한다.
t_silver(훈련)와 추론 시의 t_pred를 주어 타깃 o를 생성하도록 M_gen를 학습한다.
테스트 시에 M_ctx로 t_pred를 생성하고 q에 t_pred를 연결한 값을 M_gen에 입력하여 o를 생성한다.
FilCo(문장 수준 필터링)를 Full-context augmentation 및 passage-level filtering(Psg)과 비교하고, t_silver를 직접 사용하는 Silver 상한도 포함한다.

Figure 1: FilCo filters out irrelevant content (marked in red) and leaves precisely supporting content, making it easier for the generator to predict the correct answer.

실험 결과

연구 질문

RQ1문장 수준 컨텍스트 필터링이 다수의 지식 집중적 작업에서 검색 증강 생성의 출력 충실도와 정확도를 향상시킬 수 있는가?
RQ2어떤 필터링 신호(StrInc, Lexical, CXMI)가 다양한 작업 유형(추출형 QA, 추상형 QA, 사실 확인, 대화)에 가장 잘 보완되는가?
RQ3학습된 필터링이 입력 길이와 컴퓨테션 비용을 감소시키면서도 최종 작업 성능을 희생하지 않거나 오히려 향상시키는가?
RQ4다중 구절 설정에서 FilCo의 성능은 단일 구절 필터링 및 전체 컨텍스트 baselines와 비교하여 어떤가?

주요 결과

FilCo는 추출형 QA, 다중-hop QA, 장문 QA, 사실 검증, 대화 생성 등 여섯 가지 작업에서 Full-context augmentation 및 passage-level filtering을 일관되게 능가한다.
FilCo는 작업 전반에서 입력 길이를 44-64% 감소시키면서 실버 필터링된 컨텍스트와 동등하거나 더 나은 최종 작업 결과를 달성한다.
작업별로 다른 필터링 신호가 이득을 준다: 추출형 QA에 StrInc, 대화에 Lexical, 다중-hop QA 및 사실 확인과 같은 복잡한 작업에 CXMI.
FilCo는 엔드 제너레이션 지표를 눈에 띄는 차이로 향상시킨다(예: Flan-T5와 Llama2에서 NQ EM 증가 4.3 및 8.6; ELI5 F1 증가 0.6 및 2.6; FEVER 정확도 증가 0.6 및 3.5).
다중 구절 설정에서도 FilCo는 기준선에 대한 우위를 유지하며, 상위 5개 구절 사용 시 여러 작업에서 추가 이득이 있다.

Figure 2: The FilCo pipeline: (i) filtering retrieved passages, (ii) generation with filtered context.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.