Skip to main content
QUICK REVIEW

[논문 리뷰] Retrieval-Augmented Generation with Graphs (GraphRAG)

Haoyu Han, Yu Wang|arXiv (Cornell University)|2024. 12. 31.
Machine Learning and Algorithms인용 수 15
한 줄 요약

본 논문은 그래프 구조화 데이터를 이용한 Retrieval-Augmented Generation(RAG)을 조사하고, 그래프 위에서의 검색, 구성, 생성 지침을 제시하는 holistic GraphRAG 프레임워크와 도메인 특화 설계를 제안한다.

ABSTRACT

Retrieval-augmented generation (RAG) is a powerful technique that enhances downstream task execution by retrieving additional information, such as knowledge, skills, and tools from external sources. Graph, by its intrinsic "nodes connected by edges" nature, encodes massive heterogeneous and relational information, making it a golden resource for RAG in tremendous real-world applications. As a result, we have recently witnessed increasing attention on equipping RAG with Graph, i.e., GraphRAG. However, unlike conventional RAG, where the retriever, generator, and external data sources can be uniformly designed in the neural-embedding space, the uniqueness of graph-structured data, such as diverse-formatted and domain-specific relational knowledge, poses unique and significant challenges when designing GraphRAG for different domains. Given the broad applicability, the associated design challenges, and the recent surge in GraphRAG, a systematic and up-to-date survey of its key concepts and techniques is urgently desired. Following this motivation, we present a comprehensive and up-to-date survey on GraphRAG. Our survey first proposes a holistic GraphRAG framework by defining its key components, including query processor, retriever, organizer, generator, and data source. Furthermore, recognizing that graphs in different domains exhibit distinct relational patterns and require dedicated designs, we review GraphRAG techniques uniquely tailored to each domain. Finally, we discuss research challenges and brainstorm directions to inspire cross-disciplinary opportunities. Our survey repository is publicly maintained at https://github.com/Graph-RAG/GraphRAG/.

연구 동기 및 목표

  • 쿼리 프로세서, 리트리버, 오거나이저, 제너레이터, 그래프 데이터 소스로 구성된 holistic GraphRAG 프레임워크를 정의한다.
  • 다양한 도메인 및 그래프 형식에 맞춘 GraphRAG 기법을 검토한다.
  • 도메인 전반에 걸쳐 사용되는 그래프 구성 방법, 벤치마크, 도구를 요약한다.
  • 도전과제를 강조하고 융합 연구 및 산업 기회를 고무할 방향을 제안한다.

제안 방법

  • 다섯 구성요소 GraphRAG 프레임워크를 제시한다(쿼리 프로세서, 리트리버, 오거나이저, 제너레이터, 그래프 데이터 소스).
  • 도메인 특화 그래프 구성 및 관계 패턴을 검토하여 리트리버와 제너레이터 설계를 맞춘다.
  • GraphRAG 기법을 분류하고 그래프 구조 데이터에 검색 방법을 적용한다(예: 그래프 순회, GNNs, 관계 매칭).
  • 그래프에 맞게 조정된 다섯 가지 쿼리 처리 기법(NER, 관계 추출, 쿼리 구조화, 쿼리 분해, 쿼리 확장)을 논의한다.
  • 도메인별 분류체계(Knowledge KG, 문서, 과학, 사회, 계획, 표 형식, 인프라, 생물학, 장면, 무작위 그래프)를 제공하고 데이터셋/도구를 요약한다.

실험 결과

연구 질문

  • RQ1그래프 도메인 전반에서 통합된 GraphRAG 프레임워크를 구성하는 요소는 무엇인가?
  • RQ2리트리버와 제너레이터를 어떻게 설계하여 순수 텍스트/의미 신호가 아닌 그래프 구조를 활용해야 하는가?
  • RQ3GraphRAG 설계 및 배포에 필수적인 도메인 특화 고려사항은 무엇인가?
  • RQ4GraphRAG 연구와 응용에서 주요 도전과제와 기대 방향은 무엇인가?

주요 결과

  • 다섯 가지 핵심 구성요소를 갖는 holistic GraphRAG 프레임워크가 제안되고 분석된다.
  • GraphRAG 기법은 다양한 관계 패턴과 그래프 형식에 대응하기 위해 도메인별로 특화된다.
  • 10개 도메인의 분류체계가 그래프 구성, 검색, 구성, 생성 전략을 안내한다.
  • 본 조사는 도메인 전반에서 사용되는 벤치마크 데이터셋과 도구 자원을 수록한다.
  • 도전과제와 향후 방향이 논의되어 융합 기회 및 산업적 배치를 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.