QUICK REVIEW

[論文レビュー] Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation

Shengjie Ma, Chengjin Xu|arXiv (Cornell University)|Jul 15, 2024

Topic Modeling被引用数 8

ひとこと要約

Think-on-Graph 2.0（ToG 2.0）は、知識グラフを非構造化文書と統合して、深く解釈可能な推論と複雑なQAタスクの精度向上を実現する、KGガイド付き検索強化生成フレームワークです。

ABSTRACT

Retrieval-augmented generation (RAG) has improved large language models (LLMs) by using knowledge retrieval to overcome knowledge deficiencies. However, current RAG methods often fall short of ensuring the depth and completeness of retrieved information, which is necessary for complex reasoning tasks. In this work, we introduce Think-on-Graph 2.0 (ToG-2), a hybrid RAG framework that iteratively retrieves information from both unstructured and structured knowledge sources in a tight-coupling manner. Specifically, ToG-2 leverages knowledge graphs (KGs) to link documents via entities, facilitating deep and knowledge-guided context retrieval. Simultaneously, it utilizes documents as entity contexts to achieve precise and efficient graph retrieval. ToG-2 alternates between graph retrieval and context retrieval to search for in-depth clues relevant to the question, enabling LLMs to generate answers. We conduct a series of well-designed experiments to highlight the following advantages of ToG-2: 1) ToG-2 tightly couples the processes of context retrieval and graph retrieval, deepening context retrieval via the KG while enabling reliable graph retrieval based on contexts; 2) it achieves deep and faithful reasoning in LLMs through an iterative knowledge retrieval process of collaboration between contexts and the KG; and 3) ToG-2 is training-free and plug-and-play compatible with various LLMs. Extensive experiments demonstrate that ToG-2 achieves overall state-of-the-art (SOTA) performance on 6 out of 7 knowledge-intensive datasets with GPT-3.5, and can elevate the performance of smaller models (e.g., LLAMA-2-13B) to the level of GPT-3.5's direct reasoning. The source code is available on https://github.com/IDEA-FinAI/ToG-2.

研究の動機と目的

KG-guided RAGを通じてLLMsの知識ギャップと幻視（ハルシネーション）に対処する動機付け。
質問と知識グラフを整列させて深い推論を可能にする、グラフ誘導検索フレームワークを提案する。
構造化されたKG情報を非構造化文書の文脈と統合して、精度と解釈性を向上させる。
ベースラインと比較したマルチホップQAデータセットでの性能向上を実証する。

提案手法

知識グラフをナビゲーション手段として用いる高度なRAGフレームワークとしてTog 2.0を導入する。
多段推論パスを構築するために、反復的に関係剪定、エンティティ剪定、検査と推論のステップを実行する。
Topic Prune（TP）を用いて開始エンティティを選択し、Relation Prune（RP）でエンティティ間の関係を選択し、DPRベースのエンティティランキングでKG文脈から候補エンティティを選択する。
KG由来の手掛かりを非構造化文書の文脈と融合させ、効率性のために取得範囲を制御しつつLLM推論を誘導する。
LLMを誘導する手掛かりクエリを提供し、候補エンティティにはチャンクレベルの関連性スコアリングを用いる。
ベンチマーク全体で各成分の精度への寄与を定量化するためにアブレーション評価を行う。

実験結果

リサーチクエスチョン

RQ1KGガイド付き検索はLLMベースのQAにおける長距離推論と一貫性を改善できるか？
RQ2構造化されたKGナビゲーションを非構造化文書検索と統合することで、マルチホップQAの精度と効率が向上するか？
RQ3トピック剪定、リレーション剪定、手掛かりクエリ戦略が推論性能に与える影響はどのようか？
RQ4標準的なQAベンチマークにおいてToG 2.0はVanilla RAG、CoT、CoK、従来のToGとどう比較されるか？

主な発見

Model	LLM	WebQSP	HotpotQA	QALD-10-en	FEVER
Vanilla	Llama-2-13b	53.25	16.23	36.04	42.10
Vanilla	GPT-3.5-turbo	74.55	28.89	42.04	52.10
Tog 2.0 (w/o TP, RC, clue_query)	GPT-3.5-turbo	78.70	39.29	51.05	56.30
Tog 2.0 (w/o TP, RC, clue_query)	Llama-2-13b	76.22	29.15	48.64	49.17
Tog 2.0 (w/o TP, clue_query)	GPT-3.5-turbo	76.43	38.64	49.85	56.04
Tog 2.0 (w/o TP)	GPT-3.5-turbo	77.62	39.61	52.85	56.46
Tog 2.0	GPT-3.5-turbo	81.13	40.91	54.05	58.54

GPT-3.5-turboを用いた場合、ToG 2.0はWebQSP、HotpotQA、QALD-10-enのベースラインより性能を向上させる（EMスコア：それぞれ54.05、40.91、54.05。FEVERの精度は58.54）。
オリジナルのToGと比較して、ToG 2.0はHotpotQAで顕著な改善（14.6%）、WebQSPで4.93%、QALD-10-enで3.85%、FEVERで5.84%の改善をもたらす。
アブレーションの結果、Topic PruneがWebQSPの性能を高め、Relation Pruneは推論呼び出し回数と待機時間を低減する一方で設定によってはトレードオフが生じ、手掛かりクエリプロンプトはデータセット全体で改善を示す。
より小さなモデル容量のときにKG+contextが役立つことを示し、弱いLLM（Llama-2-13B）を用いる場合にTog 2.0の恩恵が大きい。
Vanilla RAG with Llama-2-13Bと比較して、GPT-3.5-turboを用いるToG 2.0はWebQSP、HotpotQA、QALD-10-en、FEVERのEMでより高い結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。