[論文レビュー] RAG vs. GraphRAG: A Systematic Evaluation and Key Insights
本論文は一般的なテキスト課題(QAとクエリベース要約)におけるRAGとGraphRAGを体系的に比較し、相補的な強みを明らかにし、それらを組み合わせるための選択と統合戦略を提案する。
Retrieval-Augmented Generation (RAG) improves large language models (LLMs) by retrieving relevant information from external sources and has been widely adopted for text-based tasks. For structured data, such as knowledge graphs, Graph Retrieval-Augmented Generation (GraphRAG) retrieves and aggregates information along graph structures. More recently, GraphRAG has been extended to general text settings by organizing unstructured text into graph representations, showing promise for reasoning and grounding. Despite these advances, existing GraphRAG systems for text data are often tailored to specific tasks, datasets, and system designs, resulting in heterogeneous evaluation protocols. Consequently, a systematic understanding of the relative strengths, limitations, and trade-offs between RAG and GraphRAG on widely used text benchmarks remains limited. In this paper, we present a comprehensive benchmark study comparing RAG and GraphRAG on established text-based tasks, including question answering and query-based summarization. We introduce a unified evaluation protocol that standardizes data preprocessing, retrieval configurations, and generation settings, enabling fair and reproducible comparisons. Our results highlight the distinct strengths of RAG and GraphRAG across different tasks and evaluation perspectives. Building on these findings, we explore selection and integration strategies that combine the strengths of both paradigms, leading to consistent performance improvements. We further analyze failure modes, efficiency trade-offs, and evaluation biases, and highlight key considerations for designing and evaluating retrieval-augmented generation systems.
研究の動機と目的
- 広く用いられるテキストベースのQAとクエリベース要約のベンチマークでRAGとGraphRAGを評価する。
- RAGとGraphRAGの長所・短所・タスク依存の性能差を分析する。
- 2つのアプローチを組み合わせて下流タスクの性能を向上させる戦略を調査する。
- 現在のGraphRAGの限界と将来の方向性について洞察を提供する。
提案手法
- 256トークンのチャンクとtext-embedding-ada-002を用いたトップ-10検索を持つ代表的な意味的類似性ベースのRAGを採用。
- KGベースのTriplet抽出を用いるGraphRAGと、階層的コミュニティからのローカル/グローバル検索を行うCommunityベースのGraphRAGの2つのベースラインを実装。
- QAタスク(シングルホップ/マルチホップ、単一/複数文書)とクエリベース要約(単一/複数文書)を標準指標で評価。
- 公正な比較を確保するため、チャンク化・埋め込み・LLMはすべての手法で同一に使用。
- 2つの統合戦略を評価:選択(クエリベースのRAGまたはGraphRAGへのルーティング)と統合(両方からの共同検索)。
- 要約の評価バイアスをLLMをジャッジとする設定で分析。

実験結果
リサーチクエスチョン
- RQ1一般的なテキストベースのQAと要約ベンチマークにおけるRAGとGraphRAGの相対的な強みは何か。
- RQ2どのシナリオ(シングルホップ対マルチホップ、単一対複数文書)で各アプローチが優れるまたは劣るか。
- RQ3RAGとGraphRAGの相補的強みを活用して性能を向上させる戦略を設計できるか。
- RQ4テキストベースのタスクに適用したときのGraphRAGの限界と今後の方向性は何か。
主な発見
- RAGは詳細なシングルホップのクエリや明示的な事実情報を要するタスクで優れる。
- GraphRAG(特にCommunity-GraphRAG Local)は多段推論タスクで優れている。
- Community-GraphRAGのグローバル検索はQAでの性能が劣る傾向があり、幻覚を生じることがあるが、比較/時系列クエリには役立つ可能性がある。
- KGベースのGraphRAGはグラフが不完全なため性能が低く、KG中に存在する回答エンティティは約65%程度。
- 選択と統合戦略は一般にQA性能を向上させ、統合は計算コストが高い場合により大きな改善を提供する。
- クエリベース要約では、RAGは良い成績を取りやすく、KG-GraphRAGはトリプレット+テキストの組み合わせから恩恵を受け、Community-GraphRAGのローカル検索は有利で、グローバル検索はコーパスレベルの要約に焦点を当て結果が異なる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。