[論文レビュー] SentGraph: Hierarchical Sentence Graph for Multi-hop Retrieval-Augmented Question Answering
SentGraph は refined Rhetorical Structure Theory を用いた文レベルの階層グラフ(オフライン)を導入し、グラフ指向のマルチホップ検索と回答生成を可能にする。チャンクベースおよび他のグラフ手法を上回る。
Traditional Retrieval-Augmented Generation (RAG) effectively supports single-hop question answering with large language models but faces significant limitations in multi-hop question answering tasks, which require combining evidence from multiple documents. Existing chunk-based retrieval often provides irrelevant and logically incoherent context, leading to incomplete evidence chains and incorrect reasoning during answer generation. To address these challenges, we propose SentGraph, a sentence-level graph-based RAG framework that explicitly models fine-grained logical relationships between sentences for multi-hop question answering. Specifically, we construct a hierarchical sentence graph offline by first adapting Rhetorical Structure Theory to distinguish nucleus and satellite sentences, and then organizing them into topic-level subgraphs with cross-document entity bridges. During online retrieval, SentGraph performs graph-guided evidence selection and path expansion to retrieve fine-grained sentence-level evidence. Extensive experiments on four multi-hop question answering benchmarks demonstrate the effectiveness of SentGraph, validating the importance of explicitly modeling sentence-level logical dependencies for multi-hop reasoning.
研究の動機と目的
- チャンクレベル手法を超えるより良いマルチホップQA Retrieval の必要性を動機づける。
- 細粒度の文関係をモデル化する階層的な文グラフフレームワークを提案する。
- 効率的なオンライン検索と推論を可能にするためにグラフ構築をオフラインにオフロードする。
- 複数のLLMにわたる4つのマルチホップQAベンチマークで性能の向上を示す。
- トークン効率を評価し、コンポーネントの寄与を検証するアブレーションを提供する。
提案手法
- 適応したRhetorical Structure Theory を用いて核- Satellite および核-核関係を定義する階層的な文論理グラフをオフライン構築する。
- 3層グラフ:話題ノード(Vt)、コア文ノード(Vc)、補助文ノード(Vs);エッジはトピック間、トピック-コア、コア-コア、コア-補助の関係を捉える。
- 文書を跨ぐトピックを結ぶエンティティ概念接続による文書間ブリッジング。
- coarse-to-fine アンカー選択、適応的証拠の精錬、グラフ-guided な経路展開によるオンライン検索で、要約され証拠に富んだ文脈を組み立てる。
- 取得した文レベルの証拠を用いて最終回答を生成する。
- アンカー選択、証拠の精錬、経路展開の影響を定量化するアブレーション分析。
実験結果
リサーチクエスチョン
- RQ1文レベルの明示的な論理関係を持つグラフは、チャンクレベルのグラフよりもマルチホップ証拠検索を改善できるか。
- RQ2オフラインの階層的文グラフ構築は、オンライン計算を削減しつつQA性能を維持または向上できるか。
- RQ3細粒度の証拠選択と構造化推論経路がマルチホップQAの正確性と効率にどのような影響を与えるか。
- RQ4異なるベースLLMが、BM25とBGEの取得設定でSentGraphの恩恵をどう変えるか。
主な発見
| Retrieval | Model | Retrieval Unit | Avg # Units | HotpotQA EM | HotpotQA F1 | 2Wiki EM | 2Wiki F1 | MuSiQue EM | MuSiQue F1 | MultiHop Accuracy |
|---|---|---|---|---|---|---|---|---|---|---|
| BM25 | SentGraph | Sentence | 2.89 | 48.80 | 61.98 | 44.40 | 52.53 | 25.00 | 35.09 | 68.80 |
| BGE | SentGraph | Sentence | 2.70 | 57.60 | 68.74 | 54.20 | 63.05 | 38.80 | 52.01 | 73.00 |
- SentGraph は、スパース(BM25)および密集(BGE)の両方の取得設定で、4つのマルチホップQAベンチマークで最先端の性能を達成。
- 文レベルの取得とグラフベース推論は、パッセージレベルの取得や粗いチャンク上で動作する他のグラフ手法を大幅に上回る。
- BM25の下で、HotpotQAで 48.80 EM/61.98 F1、2Wikiで 44.40 EM/52.53 F1、MuSi Que で 25.00 EM/35.09 F1、総合 MultiHop 正解率 68.80% を達成。
- BGEの下で、HotpotQAで 57.60 EM/68.74 F1、2Wikiで 54.20 EM/63.05 F1、MuSiQue で 38.80 EM/52.01 F1、総合 MultiHop 正解率 73.00% を達成。
- アブレーションは、アンカー選択、証拠精錬、ガイド付き経路展開の各要素が利益に substantial に寄与することを示し、約20アンカーを超えると収益の減少が生じる。
- SentGraph は KGP のようなグラフベースのベースラインと比較して、より細粒度の証拠選択と構造化推論により入力・出力トークンを削減し、効率が向上している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。