QUICK REVIEW

[논문 리뷰] Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

Zilong Wang, Zifeng Wang|arXiv (Cornell University)|2024. 07. 11.

Natural Language Processing Techniques인용 수 7

한 줄 요약

speculative RAG 는 소규모 전문 RAG 초안을 사용하여 검색 문서의 다양한 하위 집합에서 여러 초안을 생성하고, 더 큰 일반 AI 모델이 최상의 초안을 검증 및 선택하여 여러 RAG 벤치마크에서 정확성을 향상시키고 대기 시간을 줄입니다.

ABSTRACT

Retrieval augmented generation (RAG) combines the generative abilities of large language models (LLMs) with external knowledge sources to provide more accurate and up-to-date responses. Recent RAG advancements focus on improving retrieval outcomes through iterative LLM refinement or self-critique capabilities acquired through additional instruction tuning of LLMs. In this work, we introduce Speculative RAG - a framework that leverages a larger generalist LM to efficiently verify multiple RAG drafts produced in parallel by a smaller, distilled specialist LM. Each draft is generated from a distinct subset of retrieved documents, offering diverse perspectives on the evidence while reducing input token counts per draft. This approach enhances comprehension of each subset and mitigates potential position bias over long context. Our method accelerates RAG by delegating drafting to the smaller specialist LM, with the larger generalist LM performing a single verification pass over the drafts. Extensive experiments demonstrate that Speculative RAG achieves state-of-the-art performance with reduced latency on TriviaQA, MuSiQue, PopQA, PubHealth, and ARC-Challenge benchmarks. It notably enhances accuracy by up to 12.97% while reducing latency by 50.83% compared to conventional RAG systems on PubHealth.

연구 동기 및 목표

지식 집약적 QA에서 Retrieval Augmented Generation (RAG)을 통한 효율성과 정확도 향상을 동기 부여합니다.
초안을 작은 전문 LM에 위임하고 검증을 더 큰 일반 LM에게 맡기는 분할-정복 프레임워크를 도입합니다.
긴 검색 맥락으로 인한 중복성과 위치 편향을 줄이면서도 강한 사실 기반을 유지합니다.
여러 벤치마크에서 최첨단 성능과 낮은 대기 시간을 입증합니다.

제안 방법

콘텐츠 인식 임베딩을 사용하여 검색 문서를 k 클러스터로 분할하고 각 클러스터에서 하나의 문서를 샘플링하여 m개의 다양한 하위 집합을 형성합니다.
더 작은 RAG 초안 작성기가 각 하위 집합에 대한 답안 초안과 합당한 reasoning을 병렬로 생성하도록 합니다.
더 큰 일반 검증자는 조건부 생성 확률과 자기 성찰 프롬프트를 사용하여 각 초안-합당한 이유 쌍의 점수를 매깁니다.
가장 높은 검증자 점수를 받은 초안을 선택하고 이를 최종 답변에 통합합니다.
RAG 초안 작성기의 학습은 증강된 삼중항(Q, D, A, E)에 대한 지시 학습을 사용하여 grounded 초안과 합당한 판단을 생성합니다(P(A, E | Q, D) 최대화).
다양성은 다중 관점 샘플링과 서로 다른 검색 관점을 커버하기 위한 클러스터링으로 보장됩니다.

실험 결과

연구 질문

RQ1작은 전문 RAG 초안 작성기가 분할된 검색에서 고품질의 다양하고 다양한 초안을 생성하여 더 큰 LM이 효율적으로 검증할 수 있습니까?
RQ2합당한 근거를 갖춘 초안을 사용하는 단일 검증 패스로 일반 LM이 표준 RAG 및 자기 비판 접근 방식보다 정확도와 대기 시간에서 우수합니까?
RQ3샘플링 전략과 점수 구성요소(초안 확률, 자기 포함성, 자기 성찰)가 전체 성능에 어떤 영향을 미칩니까?

주요 결과

RAG 방법	자유 형식	TriviaQA	MuSiQue	PubHealth	ARC-Challenge
표준 RAG, Mistral 7B	-	54.15	16.71	34.85	42.75
표준 RAG, Mixtral 8x7B	-	59.85	19.16	37.08	48.72
표준 RAG, Mistral-Instruct 7B	-	67.11	17.99	42.15	47.70
표준 RAG, Mixtral-Instruct 8x7B	-	73.91	29.42	63.63	78.41
표준 RAG, Alpaca 7B	-	64.1	-	40.2	48.1
Self-Reflective RAG (Self-RAG), Mistral 7B	-	64.84	21.72	72.44	74.91
Corrective RAG (CRAG), Mistral 7B	-	-	-	59.04	74.87
Self-CRAG, Mistral 7B	-	-	72.85	75.26	-
Speculative RAG (Drafter 7B alone)	71.11	27.89	75.58	74.49	-
Speculative RAG, Verifier-7B + Drafter-7B	73.91	31.03	75.79	76.19	-
Speculative RAG, Verifier-8x7B + Drafter-7B	74.24	31.57	76.60	80.55	-

추정적 RAG는 TriviaQA, MuSiQue, PubHealth, ARC-Challenge에서 표준 RAG 및 여러 향상된 기준선보다 일관되게 뛰어납니다.
지시된 지시학습 초안을 갖춘 검증기를 사용하면 PubHealth에서 최대 12.97%의 정확도 향상 및 ARC-Challenge에서 2.14%의 향상을 얻을 수 있습니다(최고의 표준 RAG 기준선 대비).
표준 RAG에 비해 대기 시간이 감소하며 PubHealth에서 최대 51% 더 빠른 성능을 보입니다.
지시 학습된 초안 작성기가 결과를 크게 개선합니다(예: TriviaQA에서 14.39%, PubHealth에서 39.52%가 Mixtral-8x7B와 결합될 때).
다양성 강화 샘플링과 초안 및 자기 일관성/자기 성찰 점수의 결합이 성능에 결정적임을 보여주는 소거 분석.
대상 데이터 세트 전반에 걸친 대기 시간 이점은 지속되며, Speculative RAG는 텐서-병렬 기준선보다 더 낮은 대기 시간을 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.