Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Filter Context for Retrieval-Augmented Generation

Zhiruo Wang, Jun Araki|arXiv (Cornell University)|2023. 11. 14.
Topic Modeling인용 수 8
한 줄 요약

FilCo는 문장 수준 컨텍스트 필터링을 제안하여 StrInc, Lexical overlap, CXMI 측정치를 기반으로 컨텍스트 필터를 학습하고 노이즈와 계산량을 줄이면서 지식 집중적 6개 작업의 성능을 향상시킵니다.

ABSTRACT

On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.

연구 동기 및 목표

  • 검색 증강 생성에서 맥락 품질을 향상시켜 무관한 구절에 대한 의존도를 줄일 필요성을 동기 부여한다.
  • 세 가지 측정치에 의해 안내되는 문장 수준 컨텍스트 필터링 접근법 FilCo를 제안하고 유용한 텍스트 구절을 선택한다.
  • 학습된 컨텍스트 필터링이 여섯 개의 지식 집약적 데이터 세트에서 성능을 향상시킨다는 것을 보인다.
  • 실질적인 입력 길이 감소와 실버 표준 필터링과 비교해 동등하거나 우수한 이득을 입증한다.
  • 각 작업별로 어떤 필터링 신호가 가장 잘 작동하는지에 대한 가이드를 제공하고 다중 구절로 확장된 평가를 수행한다.

제안 방법

  • 검색된 구절에서 문장 수준의 텍스트 구절을 선택하기 위한 미세한 필터링 함수를 정의한다.
  • 세 가지 오라클 유사 필터링 측정치를 사용한다: StrInc(구절이 출력물을 포함하는지 여부), Lexical overlap(예시/출력과의 유니그램 중복), CXMI(맥락이 추가될 때 생성 확률의 변화).
  • oracle-filtered 신호를 감독 신호로 사용하여 q와 검색된 구절 P로부터 필터링된 컨텍스트 t_silver를 예측하도록 M_ctx라는 컨텍스트 필터링 모델을 학습한다.
  • t_silver(훈련)와 추론 시의 t_pred를 주어 타깃 o를 생성하도록 M_gen를 학습한다.
  • 테스트 시에 M_ctx로 t_pred를 생성하고 q에 t_pred를 연결한 값을 M_gen에 입력하여 o를 생성한다.
  • FilCo(문장 수준 필터링)를 Full-context augmentation 및 passage-level filtering(Psg)과 비교하고, t_silver를 직접 사용하는 Silver 상한도 포함한다.
Figure 1: FilCo filters out irrelevant content (marked in red) and leaves precisely supporting content, making it easier for the generator to predict the correct answer.
Figure 1: FilCo filters out irrelevant content (marked in red) and leaves precisely supporting content, making it easier for the generator to predict the correct answer.

실험 결과

연구 질문

  • RQ1문장 수준 컨텍스트 필터링이 다수의 지식 집중적 작업에서 검색 증강 생성의 출력 충실도와 정확도를 향상시킬 수 있는가?
  • RQ2어떤 필터링 신호(StrInc, Lexical, CXMI)가 다양한 작업 유형(추출형 QA, 추상형 QA, 사실 확인, 대화)에 가장 잘 보완되는가?
  • RQ3학습된 필터링이 입력 길이와 컴퓨테션 비용을 감소시키면서도 최종 작업 성능을 희생하지 않거나 오히려 향상시키는가?
  • RQ4다중 구절 설정에서 FilCo의 성능은 단일 구절 필터링 및 전체 컨텍스트 baselines와 비교하여 어떤가?

주요 결과

  • FilCo는 추출형 QA, 다중-hop QA, 장문 QA, 사실 검증, 대화 생성 등 여섯 가지 작업에서 Full-context augmentation 및 passage-level filtering을 일관되게 능가한다.
  • FilCo는 작업 전반에서 입력 길이를 44-64% 감소시키면서 실버 필터링된 컨텍스트와 동등하거나 더 나은 최종 작업 결과를 달성한다.
  • 작업별로 다른 필터링 신호가 이득을 준다: 추출형 QA에 StrInc, 대화에 Lexical, 다중-hop QA 및 사실 확인과 같은 복잡한 작업에 CXMI.
  • FilCo는 엔드 제너레이션 지표를 눈에 띄는 차이로 향상시킨다(예: Flan-T5와 Llama2에서 NQ EM 증가 4.3 및 8.6; ELI5 F1 증가 0.6 및 2.6; FEVER 정확도 증가 0.6 및 3.5).
  • 다중 구절 설정에서도 FilCo는 기준선에 대한 우위를 유지하며, 상위 5개 구절 사용 시 여러 작업에서 추가 이득이 있다.
Figure 2: The FilCo pipeline: (i) filtering retrieved passages, (ii) generation with filtered context.
Figure 2: The FilCo pipeline: (i) filtering retrieved passages, (ii) generation with filtered context.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.