[論文レビュー] Reinforcement Learning Enhanced Multi-hop Reasoning for Temporal Knowledge Question Answering
この論文は、マルチ・トラジェクトリサンプリング、コールドスタート監視微調整、およびツリー・グループ相対ポリシー最適化(T-GRPO)を用いたLLMベースのフレームワークであるMREを紹介し、Temporal Knowledge Graph Question Answering(TKGQA)におけるグローバル最適な多段階推論を達成する。
Temporal knowledge graph question answering (TKGQA) involves multi-hop reasoning over temporally constrained entity relationships in the knowledge graph to answer a given question. However, at each hop, large language models (LLMs) retrieve subgraphs with numerous temporally similar and semantically complex relations, increasing the risk of suboptimal decisions and error propagation. To address these challenges, we propose the multi-hop reasoning enhanced (MRE) framework, which enhances both forward and backward reasoning to improve the identification of globally optimal reasoning trajectories. Specifically, MRE begins with prompt engineering to guide the LLM in generating diverse reasoning trajectories for a given question. Valid reasoning trajectories are then selected for supervised fine-tuning, serving as a cold-start strategy. Finally, we introduce Tree-Group Relative Policy Optimization (T-GRPO), a recursive, tree-structured learning-by-exploration approach. At each hop, exploration establishes strong causal dependencies on the previous hop, while evaluation is informed by multi-path exploration feedback from subsequent hops. Experimental results on two TKGQA benchmarks indicate that the proposed MRE-based model consistently surpasses state-of-the-art (SOTA) approaches in handling complex multi-hop queries. Further analysis highlights improved interpretability and robustness to noisy temporal annotations.
研究の動機と目的
- TKGQAにおける単一ホップや局所最適なパスを超えたグローバル(軌道レベル)推論の改善を動機づける。
- LLMと構造化サブグラフ検索を活用して多段階の時系列推論をガイドする。
- 多様な軌道サンプリング、コールドスタート監督付き微調整、木構造の強化学習を含むトレーニングパイプラインを開発し、スパース報酬の問題を緩和する。
提案手法
- GPT-4を用いたマルチ・トラジェクトリサンプリングにより、数ショットデータセットから多様な1-to-Nホップ推論軌道を生成する。
- ターゲットLLMに中間推論パターンを刻み込むコールドスタート監督付き微調整。
- Tree-Group Relative Policy Optimization(T-GRPO):探索する各ホップでサブツリーを構築し、下流評価から上流の意思決定へと逆向きのクレジットを伝播する木構造の学習型探索法。
- 各ホップで、トップ-Pの関連事実を選択してサブグラフを構築する;次のホップの決定を導くために歴史的文脈を蓄積する。
- GRPOを用いて各ツリー内で探索された軌道間の相対的好みをモデル化し、ポリシー更新を行う;トレーニング安定性のために結果を非同期バッファに格納する。
実験結果
リサーチクエスチョン
- RQ1LLMベースのTKGQAをどのように導いて、局所的に最適なステップではなくグローバルに最適な多段階推論軌道を識別させることができるか?
- RQ2木構造の探索と逆向きクレジット(T-GRPO)は、スパース報酬信号下の多段階時系列推論でトレーニングの安定性と軌道品質を向上させるか?
- RQ3多様なマルチホップ軌道とコールドスタート監督付き微調整は、TKQAモデルの頑健性と解釈性を向上させるか?
- RQ4MREは標準的なTKGQAベンチマークで、単純対複雑、エンティティ対時系列中心の質問において最先端のベースラインと比較してどのように性能を示すか?
主な発見
- MREはCRONQUESTIONSでHits@1 = 0.982、Hits@10 = 0.970で最先端の精度を達成。
- TimeQuestionsでは、全体的な強力な性能を発揮し、複雑な時系列推論カテゴリ(暗黙的および序数的質問)でリード。
- アブレーションは、T-GRPO、コールドスタート微調整、またはマルチ・トラジェクトリサンプリングを除去すると性能が低下することを示し、特にマルチ・トラジェクトリサンプリングを除去した場合の低下が最も大きい。
- MREは単純な質問でほぼ完璧に近い性能を維持(例:Hits@1 99.9%)、エンティティタイプと時間回答タイプの両方で堅牢な性能を示す。
- 木構造の報酬伝播(T-GRPO)は平坦なGRPOやPPOよりも優れており、より少ないサンプル数で高いHits@1を達成(例:T-GRPOはpeakHits@1 98.2%)。
- 推論深さを問わず、1-hopから3-hopのクエリでベースラインを一貫して上回り、深く複雑なクエリで顕著なゲインを示す分析。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。