Skip to main content
QUICK REVIEW

[논문 리뷰] Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely

Shihua Zhao, Yuqing Yang|arXiv (Cornell University)|2024. 09. 23.
Library Science and Information Systems인용 수 12
한 줄 요약

데이터 증강 LLM 쿼리를 네 가지 수준으로 분류하고, RAG 개선, 검색 전략, 통합 형태를 다루는 포괄적 조사.

ABSTRACT

Large language models (LLMs) augmented with external data have demonstrated remarkable capabilities in completing real-world tasks. Techniques for integrating external data into LLMs, such as Retrieval-Augmented Generation (RAG) and fine-tuning, are gaining increasing attention and widespread application. Nonetheless, the effective deployment of data-augmented LLMs across various specialized fields presents substantial challenges. These challenges encompass a wide range of issues, from retrieving relevant data and accurately interpreting user intent to fully harnessing the reasoning capabilities of LLMs for complex tasks. We believe that there is no one-size-fits-all solution for data-augmented LLM applications. In practice, underperformance often arises from a failure to correctly identify the core focus of a task or because the task inherently requires a blend of multiple capabilities that must be disentangled for better resolution. In this survey, we propose a RAG task categorization method, classifying user queries into four levels based on the type of external data required and primary focus of the task: explicit fact queries, implicit fact queries, interpretable rationale queries, and hidden rationale queries. We define these levels of queries, provide relevant datasets, and summarize the key challenges and most effective techniques for addressing these challenges. Finally, we discuss three main forms of integrating external data into LLMs: context, small model, and fine-tuning, highlighting their respective strengths, limitations, and the types of problems they are suited to solve. This work aims to help readers thoroughly understand and decompose the data requirements and key bottlenecks in building LLM applications, offering solutions to the different challenges and serving as a guide to systematically developing such applications.

연구 동기 및 목표

  • 데이터-증강 LLM 애플리케이션에 대한 구조화된 시각을 정의하고 외부 데이터가 LLM 성능을 개선하는 이유를 설명합니다.
  • 데이터-증강 작업을 위한 네 수준의 쿼리 분류(명시적 사실, 암시적 사실, 해석 가능한 근거, 숨겨진 근거)를 제안합니다.
  • RAG 및 대안에 대한 도전 과제, 데이터 세트, 효과적인 기법을 조사합니다.
  • 맥락(context), 소형 모델, 파인튜닝의 세 가지 주요 외부 데이터 통합 형태와 각각의 트레이드오프를 논의합니다.

제안 방법

  • 주어진 데이터 D에 대해 f: Q -> A로 표현되는 데이터-증강 LLM 애플리케이션에 대한 형식적 문제 정의를 제시합니다.
  • 쿼리를 네 수준으로 분류하고 데이터 세트를 수준에 매핑합니다(표 1 참조).
  • RAG 구성 요소를 자세히 설명합니다: 데이터 처리, 데이터 검색(희소, 밀집, 하이브리드), 문서/쿼리 정렬, 재순위 지정, 및 반복적 검색.
  • 노이즈가 있는 검색 처리 및 검색기와 생성기의 공동 재훈련을 포함한 응답 생성 향상에 대해 설명합니다.
  • 상위 수준의(암시적) 사실 쿼리를 위한 반복적, 그래프/트리, SQL 기반 접근법을 소개합니다.
  • RAG를 넘어선 대체 데이터 통합 전략을 논의합니다. 지식 그래프, 그래프 기반 추론, 청크 기반 프롬프트를 포함합니다.

실험 결과

연구 질문

  • RQ1외부 데이터 필요성과 작업 초점에 따라 사용자의 쿼리를 어떻게 수준으로 조직할 수 있습니까?
  • RQ2네 가지 수준에서 LLM에서 외부 데이터를 검색하고 활용하는 주요 도전과제와 효과적인 해결책은 무엇입니까?
  • RQ3맥락(context), 소형 모델, 파인튜닝 접근법의 강점과 한계는 무엇입니까?
  • RQ4명시적/암시적 사실 및 근거 쿼리 수준을 보여주는 데이터 세트는 무엇이며, 기존 작업에 어떻게 매핑됩니까?

주요 결과

  • RAG는 구조화되지 않은 다중 모달 데이터 전반에서 데이터 처리 및 검색 과제를 가진 명시적 사실 쿼리에 대한 핵심 솔루션으로 남아 있습니다.
  • 반복적이고 계층적인 검색 전략은 다중 홉 및 복잡한 암시적 사실 쿼리를 다루는 데 도움이 됩니다.
  • 맥락(context), 소형 모델, 파인튜닝의 세 가지 데이터 통합 형태는 제어, 효율성 및 도메인 적응에서 뚜렷한 트레이드오프를 제공합니다.
  • 정렬(Alignment) 전략(전통적, 문서/도메인, 쿼리-도메인)과 재순위 지정은 검색 품질에 중요하며, HyDE 및 SlimPLM과 같은 방법이 개선에 기여합니다.
  • 파인튜닝 및 공동 재훈련을 통한 노이즈 검색 처리는 생성 안정화와 데이터-증강 LLM의 허위 진술 감소에 기여할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.