QUICK REVIEW

[논문 리뷰] Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers

Kunal Sawarkar, Abhilasha Mangal|arXiv (Cornell University)|2024. 03. 22.

Topic Modeling인용 수 7

한 줄 요약

본 논문은 Blended RAG를 도입하여 의미론적 검색과 다중 인덱스에 걸친 하이브리드 질의 전략을 결합해 검색기와 RAG 정확도를 향상시키고, zero-shot 설정에서 NQ, TREC-COVID, SQuAD 등에서 새로운 벤치마크를 달성합니다.

ABSTRACT

Retrieval-Augmented Generation (RAG) is a prevalent approach to infuse a private knowledge base of documents with Large Language Models (LLM) to build Generative Q\&A (Question-Answering) systems. However, RAG accuracy becomes increasingly challenging as the corpus of documents scales up, with Retrievers playing an outsized role in the overall RAG accuracy by extracting the most relevant document from the corpus to provide context to the LLM. In this paper, we propose the 'Blended RAG' method of leveraging semantic search techniques, such as Dense Vector indexes and Sparse Encoder indexes, blended with hybrid query strategies. Our study achieves better retrieval results and sets new benchmarks for IR (Information Retrieval) datasets like NQ and TREC-COVID datasets. We further extend such a 'Blended Retriever' to the RAG system to demonstrate far superior results on Generative Q\&A datasets like SQUAD, even surpassing fine-tuning performance.

연구 동기 및 목표

코퍼스 크기가 커질수록 RAG 정확도 향상이 중요해지고, 검색기의 품질이 전체 성능을 지배한다는 점을 강조합니다.
의미론적 검색(밀집/희소 인덱스)과 하이브리드 질의를 결합하는 Blended Retriever 전략을 제안합니다.
여러 IR 및 QA 데이터세트에서 Blended Retriever와 Blended RAG를 평가하여 새로운 벤치마크를 확립합니다.
데이터셋 특定 미세조정 없이 제로샷 RAG 성능 향상을 보여줍니다.

제안 방법

키워드 기반 검색을 베이스라인으로 사용하기 위해 BM25를 사용합니다.
문장 변환기를 사용해 의미적 유사성을 위한 밀집 벡터 인덱스 구축합니다.
최고 필드 하이브리드 질의를 사용하여 Nuanced semantic relationships를 포착하는 Sparse Encoder 인덱스를 활용합니다.
하이브드 질의들(교차 필드, 대부분의 필드, 최적 필드, 어구 접두사)을 개발하고 이를 Dense/Sparse 인덱스와 결합해 Blended Retrievers를 형성합니다.
RAG 평가를 위해 상위 6개(섹스텟) 하이브드 질의를 선택합니다.
RAG 평가를 FLAN-T5-XXL로 수행하고, 비-Blended 베이스라인 및 미세 조정 변형과 비교하며 EM/F1 및 Top-k 검색 지표를 사용합니다.

실험 결과

연구 질문

RQ1의미론적 검색 기반 검색기와 하이브리드 질의가 다양한 데이터세트에서 검색 및 RAG 정확도에 어떤 영향을 미치나요?
RQ2인덱스 유형과 하이브리드 질의의 어떤 조합이 최상의 검색 성능을 낳고, 이것이 하위 RAG 품질에 어떻게 반영되나요?
RQ3Blended RAG가 데이터셋 특이적 미세조정 없이 제로샷 Q&A 성능을 향상시킬 수 있나요?
RQ4Blended Retriever의 밀도와 희소성, 메타데이터 효과 등의 트레이드오프와 실무 배치에의 영향은 무엇인가요?

주요 결과

Sparse Encoder 및 Best Fields를 이용한 하이브드 질의가 자연어 질문(NQ)에서 상위 10개 정확도 88.77%로 최고 검색 성능을 달성합니다.
TREC-COVID에서 벡터-검색 하이브리드 질의와 Best Fields가 점수-2 관련성에 대해 상위 10개 정확도 98%에 도달하여 키워드 기반 방법을 능가합니다.
HotPotQA의 경우 Cross Fields 및 Best Fields와 Sparse Encoder를 사용하면 계산 한계로 부분 집합에서 상위 10개 검색 정확도 65.70%를 달성합니다.
Retriever 벤치마킹에서 Blended RAG는 NQ에서 0.67의 NDCG@10( monoT5-3B 대비 5.8% 증가), TREC-COVID에서 0.87( COCO-DR Large 대비 8.2% 증가)을 달성합니다.
SQuAD 검색 결과는 밀집 벡터(KNN) 접근 방식이 희소/벡터 방법보다 우수하다는 것을 시사하며, Blended RAG가 상당한 이점을 제공합니다.
Blended RAG는 제로샷 설정에서 SQuAD에서 68% F1, NQ에서 42% EM을 달성하여 많은 튜닝된 베이스라인을 능가합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.