[論文レビュー] Knowledge Graph Prompting for Multi-Document Question Answering
本論文は、多文書QAのためのKnowledge Graph Prompting (KGP) を提案し、 passage と文書構造の上に知識グラフを構築し、LLMベースのトラバーサルエージェントを用いて文書間の質問回答に必要な文脈証拠を取得する。
The `pre-train, prompt, predict' paradigm of large language models (LLMs) has achieved remarkable success in open-domain question answering (OD-QA). However, few works explore this paradigm in the scenario of multi-document question answering (MD-QA), a task demanding a thorough understanding of the logical associations among the contents and structures of different documents. To fill this crucial gap, we propose a Knowledge Graph Prompting (KGP) method to formulate the right context in prompting LLMs for MD-QA, which consists of a graph construction module and a graph traversal module. For graph construction, we create a knowledge graph (KG) over multiple documents with nodes symbolizing passages or document structures (e.g., pages/tables), and edges denoting the semantic/lexical similarity between passages or intra-document structural relations. For graph traversal, we design an LLM-based graph traversal agent that navigates across nodes and gathers supporting passages assisting LLMs in MD-QA. The constructed graph serves as the global ruler that regulates the transitional space among passages and reduces retrieval latency. Concurrently, the graph traversal agent acts as a local navigator that gathers pertinent context to progressively approach the question and guarantee retrieval quality. Extensive experiments underscore the efficacy of KGP for MD-QA, signifying the potential of leveraging graphs in enhancing the prompt design for LLMs. Our code: https://github.com/YuWVandy/KG-LLM-MDQA.
研究の動機と目的
- オープンドメインQAを超えるMD-QAを動機づけるには、クロスドキュメント推論と構造化された内容理解を要求する。
- 語彙的/意味的類似性と文書構造の関係を符号化する、一般的に適用可能なKG構築手法を提案する。
- 適応的に関連文脈を取得するLLMガイド付きグラフトラバーサルエージェントを開発する。
- グラフベースの prompting が複数のデータセットに渡ってMD-QAの性能と検索効率を改善することを示す。
提案手法
- ノードを passages または文書構造(ページ/表)とする知識グラフを構築し、エッジには語彙/意味的類似性や構造的関係を符号化する。
- 構造ノード(ページ、表)を追加し、表にはMarkdownコンテンツを用いてLLMの理解を支援する。
- 訪問済みの passages が与えられたとき、回答に近づくための次に訪問すべき隣接ノードを選択するLLMベースのグラフトラバーサルエージェントを訓練またはファインチューニングする。
- 幻覚を緩和するため、推論能力を高めるための instruction-finetuning を用いて、トラバーサルエージェントの推論能力を高める。
- 複数のKG構築戦略(TF-IDF、KNN-MDR、KNN-ST、TAGME)を探索し、それらの有効性とトレードオフを比較する。
- 取得した passages を用いてMD-QA質問に回答するプロンプト設計とトラバーサルプロセスを統合する。
実験結果
リサーチクエスチョン
- RQ1文書上の知識グラフは、ベースライン手法と比較してMD-QA promptingと検索をどのように改善できるか?
- RQ2MD-QAに必要なクロスドキュメント推論を最も適切に捉えるKG構築戦略は何か?
- RQ3LLMガイド付きKGトラバーサルエージェントは、質問回答のための関連文脈を効果的に取得するようグラフをナビゲートできるか?
- RQ4文書構造(ページ/表)の組込みがMD-QAの性能にどう影響するか?
- RQ5KGの密度とトラバーサル戦略を変える場合の性能と効率のトレードオフは何か?
主な発見
| 方法 | HotpotQA 精度 | HotpotQA EM | HotpotQA F1 | IIRC 精度 | IIRC EM | IIRC F1 | 2WikiMQA 精度 | 2WikiMQA EM | 2WikiMQA F1 | MuSiQue 精度 | MuSiQue EM | MuSiQue F1 | PDFTriage Struct-EM | w PDFTriage 精度 | w PDFTriage EM | w PDFTriage F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| None | 41.80 | 19.00 | 30.50 | 19.50 | 8.60 | 13.17 | 44.40 | 18.60 | 25.07 | 30.40 | 4.60 | 10.58 | 0.00 | 8.53 | 9.00 | |
| KNN | 71.57 | 40.73 | 57.97 | 43.82 | 25.15 | 37.24 | 52.40 | 31.20 | 42.13 | 44.70 | 18.86 | 30.04 | – | 7.00 | 7.33 | |
| TF-IDF | 76.64 | 45.97 | 64.64 | 47.47 | 27.22 | 40.80 | 58.40 | 34.60 | 44.50 | 44.40 | 21.59 | 32.50 | – | 4.85 | 5.00 | |
| BM25 | 71.95 | 41.46 | 59.73 | 41.93 | 23.48 | 35.55 | 55.80 | 30.80 | 40.55 | 44.47 | 21.11 | 31.15 | – | 6.92 | 7.25 | |
| DPR | 73.43 | 43.61 | 62.11 | 48.11 | 26.89 | 41.85 | 62.40 | 35.60 | 51.10 | 44.27 | 20.32 | 31.64 | – | 5.31 | 5.50 | |
| MDR | 75.30 | 45.55 | 65.16 | 50.84 | 27.52 | 43.47 | 63.00 | 36.00 | 52.44 | 48.39 | 23.49 | 37.03 | – | 3.07 | 3.08 | |
| IRCoT | 74.36 | 45.29 | 64.12 | 49.78 | 27.73 | 41.65 | 61.81 | 37.75 | 50.17 | 45.14 | 22.46 | 34.21 | – | 4.00 | 4.08 | |
| KGP-T5 | 76.53 | 46.51 | 66.77 | 48.28 | 26.94 | 41.54 | 63.50 | 39.80 | 53.50 | 50.92 | 27.90 | 41.19 | 67.00 | 2.69 | 2.75 | |
| Golden | 82.19 | 50.20 | 71.06 | 62.68 | 35.64 | 54.76 | 72.60 | 40.20 | 59.69 | 57.00 | 30.60 | 47.75 | 100.00 | 1.00 | 1.00 |
- KGP-T5はMD-QAベンチマークでトップパフォーマンスを達成し、Golden contextを除くベースラインをしばしば上回る。
- MDRベースのトラバーサルとドメイン特化事前学習で調整されたKGは、一般的な埋め込み法(DPR)より強い結果を生む。
- 構造ノードを取り入れたKGは、構造的な質問(例: Page 1 と Page 2 の差異)に対応でき、Table 1 にて67%のStruct-EMゲインが報告された。
- GPT/LMMベースのトラバーサルエージェントは、ランダムトラバーサルを大きく上回り、HotpotQA、2WikiMQA、MuSiQue、IIRC で精度とF1の面でいくつかのベースラインリトリーバを上回る。
- KGの密度と検索待機時間のトレードオフが存在する。高密度はEM/F1を改善するが待機時間を増加させる。固定のコンテキスト予算の下で最大の性能を引き出すには、適切に調整されたブランチ数が重要。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。