QUICK REVIEW

[논문 리뷰] Benchmarking Large Language Models in Retrieval-Augmented Generation

Jiawei Chen, Hongyu Lin|arXiv (Cornell University)|2023. 09. 04.

Topic Modeling인용 수 52

한 줄 요약

이 논문은 영어와 중국어로 된 검색 기반 생성(Retrieval-Augmented Generation, RAG) 벤치마크 RGB를 제시하여 RAG를 통한 LLM의 네 가지 능력을 여섯 모델에서 평가하고, 노이즈 처리, 거부, 정보 통합, 역구현 강건성에서의 중요한 한계를 밝힙니다.

ABSTRACT

Retrieval-Augmented Generation (RAG) is a promising approach for mitigating the hallucination of large language models (LLMs). However, existing research lacks rigorous evaluation of the impact of retrieval-augmented generation on different large language models, which make it challenging to identify the potential bottlenecks in the capabilities of RAG for different LLMs. In this paper, we systematically investigate the impact of Retrieval-Augmented Generation on large language models. We analyze the performance of different large language models in 4 fundamental abilities required for RAG, including noise robustness, negative rejection, information integration, and counterfactual robustness. To this end, we establish Retrieval-Augmented Generation Benchmark (RGB), a new corpus for RAG evaluation in both English and Chinese. RGB divides the instances within the benchmark into 4 separate testbeds based on the aforementioned fundamental abilities required to resolve the case. Then we evaluate 6 representative LLMs on RGB to diagnose the challenges of current LLMs when applying RAG. Evaluation reveals that while LLMs exhibit a certain degree of noise robustness, they still struggle significantly in terms of negative rejection, information integration, and dealing with false information. The aforementioned assessment outcomes indicate that there is still a considerable journey ahead to effectively apply RAG to LLMs.

연구 동기 및 목표

검색 기반 보강이 핵심 RAG 능력(노이즈 강건성, 부정적 거부, 정보 통합, 역구현 강건성)에 걸쳐 LLM에 미치는 영향을 평가한다.
최신 뉴스 기사와 검색된 문서를 바탕으로 영어/중국어 이중 언어 벤치마크(RGB)를 구축하여 공정한 평가를 가능하게 한다.
현재 RAG를 사용하는 LLM의 병목 현상을 진단하고 개선 방향을 제시한다.
향후 RAG 가능 LLM 개발에 대한 분석과 방향을 제시한다.

제안 방법

최신 뉴스 기사에서 QA 인스턴스를 생성하고 프롬프트를 통해 이벤트, 질문, 답을 만들며 RGB를 구성한다.
검색 API를 통해 외부 문서를 검색하고 텍스트 청크로 변환한 후 밀도 검색을 적용해 상위 청크를 선택한다.
코퍼스를 확장하고 네 가지 RAG 능력에 대응하는 네 가지 테스트베드로 분할한다.
영어 및 중국어 데이터에 대해 여섯 가지 LLM(ChatGPT, ChatGLM-6B, ChatGLM2-6B, Vicuna-7B, Qwen-7B-Chat, BELLE-7B-2M)을 평가한다.
노이즈 강건성 및 정보 통합의 정확도(정확도 매칭), 부정적 거부를 위한 거부 신호, 역구현 강건성 척도(문서 유무에 따른 정확도, 오류 탐지 및 수정)를 사용한다.

실험 결과

연구 질문

RQ1현재 LLM이 검색된 문서를 사용할 때 노이즈 강건성에서 어떻게 성능을 보이는가?
RQ2검색된 정보가 충분하지 않을 때 LLM이 정답 작성을 올바르게 거부할 수 있는가?
RQ3여러 검색 문서에서 정보를 얼마나 잘 통합할 수 있는가?
RQ4검색된 문서의 역구현 오류를 LLM이 어떻게 다루고 이를 탐지/수정할 수 있는가?

주요 결과

RAG는 일부 모델의 응답 정확도를 높이지만, 노이즈가 증가함에 따라 성능이 떨어진다(예: 노이즈 비율이 0.8을 초과하면 정확도가 크게 감소).
부정적 거부는 여전히 도전적이며 평가에서 관찰된 최고 거부율은 영어 45%, 중국어 43.33%로, 모델이 종종 노이즈가 포함된 콘텐츠로 답을 제공함을 시사한다.
정보 통합은 약하며, 노이즈가 없어도 최대 정확도는 영어 60%, 중국어 67%에 그치고, 노이즈가 증가하면 더 떨어진다.
모델은 역구현 강건성에 취약하며, 문서가 있을 때의 정확도보다 문서가 없을 때의 정확도가 더 높은 경향이 있으며, 오류 탐지/수정 비율도 제한적이다.
언어를 가로지르는 모델은 노이즈 및 문서 불일치에 대한 민감도가 다르고, 다중 하위 질문 시 특히 병합/무시/불일치 오류가 영향력을 발휘한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.