[논문 리뷰] RAG vs. GraphRAG: A Systematic Evaluation and Key Insights
논문은 일반 텍스트 작업에서 RAG와 GraphRAG를 체계적으로 비교하고 상보적 강점을 밝히며 이를 결합하기 위한 선택 및 통합 전략을 제안한다.
Retrieval-Augmented Generation (RAG) improves large language models (LLMs) by retrieving relevant information from external sources and has been widely adopted for text-based tasks. For structured data, such as knowledge graphs, Graph Retrieval-Augmented Generation (GraphRAG) retrieves and aggregates information along graph structures. More recently, GraphRAG has been extended to general text settings by organizing unstructured text into graph representations, showing promise for reasoning and grounding. Despite these advances, existing GraphRAG systems for text data are often tailored to specific tasks, datasets, and system designs, resulting in heterogeneous evaluation protocols. Consequently, a systematic understanding of the relative strengths, limitations, and trade-offs between RAG and GraphRAG on widely used text benchmarks remains limited. In this paper, we present a comprehensive benchmark study comparing RAG and GraphRAG on established text-based tasks, including question answering and query-based summarization. We introduce a unified evaluation protocol that standardizes data preprocessing, retrieval configurations, and generation settings, enabling fair and reproducible comparisons. Our results highlight the distinct strengths of RAG and GraphRAG across different tasks and evaluation perspectives. Building on these findings, we explore selection and integration strategies that combine the strengths of both paradigms, leading to consistent performance improvements. We further analyze failure modes, efficiency trade-offs, and evaluation biases, and highlight key considerations for designing and evaluating retrieval-augmented generation systems.
연구 동기 및 목표
- RAG와 GraphRAG를 널리 사용되는 텍스트 기반 QA 및 쿼리 기반 요약 벤치마크에서 평가한다.
- RAG와 GraphRAG 간의 강점, 약점 및 작업 의존적 성능 차이를 분석한다.
- 두 접근 방식을 결합하여 다운스트림 작업의 성능을 향상시키는 전략을 조사한다.
- 현재 GraphRAG의 한계와 향후 방향에 대한 통찰을 제공한다.
제안 방법
- 256-토큰 청크와 text-embedding-ada-002를 사용한 표 representative semantic-similarity 기반 RAG를 채택한다.
- KG 기반 GraphRAG의 트리플 추출 및 지역/전역 검색을 포함하는 Community 기반 GraphRAG의 두 가지 베이스라인을 구현한다.
- QA 작업(단일 홉/다중 홉, 단일/다중 문서) 및 쿼리 기반 요약(단일/다중 문서)에서 표준 지표로 평가한다.
- 공정한 비교를 위해 방법 간 동일한 청크 분할, 임베딩 및 LLM을 사용한다.
- 두 가지 통합 전략을 평가한다: 선택(쿼리 기반 경로를 RAG 또는 GraphRAG로 라우팅)과 통합(두 시스템의 공동 검색).
- 요약 작업에서 LLM-판단자 설정의 평가 편향성을 analysis한다.

실험 결과
연구 질문
- RQ1일반 텍스트 기반 QA 및 요약 벤치마크에서 RAG와 GraphRAG의 상대적 강점은 무엇인가?
- RQ2각 접근 방식이 탁월하거나 실패하는 시나리오(단일 홉 대 다중 홉, 단일 문서 대 다중 문서)는 무엇인가?
- RQ3RAG와 GraphRAG의 보완적 강점을 활용하여 성능을 향상시킬 수 있는 전략을 설계할 수 있는가?
- RQ4텍스트 기반 작업에 적용될 때 GraphRAG의 한계 및 향후 방향은 무엇인가?
주요 결과
- RAG는 상세한 단일 홈 질문 및 명시적 사실 정보가 필요한 작업에서 우수하다.
- GraphRAG(특히 Community-GraphRAG Local)는 다중 홉 추론 작업에서 우수하다.
- Community-GraphRAG의 Global 검색은 QA에서 종종 성능이 떨어지고 망상을 erzeug할 수 있지만 비교/시간 질의에 도움을 줄 수 있다.
- KG 기반 GraphRAG는 KG에 존재하는 답변 엔터티가 약 65%에 불과하여 불완전한 그래프 때문에 성능이 저하된다.
- 선택 및 통합 전략은 일반적으로 QA 성능을 향상시키고, 통합은 더 높은 계산 비용에서 더 큰 이득을 제공한다.
- 쿼리 기반 요약의 경우 RAG가 잘 작동하는 경향이 있고, KG-GraphRAG는 트리플과 텍스트의 조합에서 이점을 보이며 Local 검색은 이점이 크고 Global 검색은 코퍼스 수준의 요약에 중점을 두며 결과가 다양하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.