[論文レビュー] Multi-Hop Knowledge Graph Reasoning with Reward Shaping
本稿では、事前学習済み埋め込みを用いて報酬を形状化し、アクションドロップアウトを適用することで多ホップ知識グラフ推論の性能を向上させる強化学習手法を提案する。この手法は、既存のパスベースモデルを著しく上回り、5つのベンチマークデータセットにおいて埋め込みベースモデルと同等の最先端の結果を達成する。
Multi-hop reasoning is an effective approach for query answering (QA) over incomplete knowledge graphs (KGs). The problem can be formulated in a reinforcement learning (RL) setup, where a policy-based agent sequentially extends its inference path until it reaches a target. However, in an incomplete KG environment, the agent receives low-quality rewards corrupted by false negatives in the training data, which harms generalization at test time. Furthermore, since no golden action sequence is used for training, the agent can be misled by spurious search trajectories that incidentally lead to the correct answer. We propose two modeling advances to address both issues: (1) we reduce the impact of false negative supervision by adopting a pretrained one-hop embedding model to estimate the reward of unobserved facts; (2) we counter the sensitivity to spurious paths of on-policy RL by forcing the agent to explore a diverse set of paths using randomly generated edge masks. Our approach significantly improves over existing path-based KGQA models on several benchmark datasets and is comparable or better than embedding-based models.
研究の動機と目的
- 強化学習ベースの推論において不完全な知識グラフにおける誤ったネガティブ報酬の課題に対処すること。
- オンポリシー強化学習学習において、偶然正解に至るあり得ないパスに方策が偏る問題を軽減すること。
- データの不完全性下でもマルチホップ知識グラフ質問応答における一般化性と耐性を向上させること。
- パスベースモデルと埋め込みベースモデルの間の性能格差を是正すること。
提案手法
- 事前学習済み1ホップ知識グラフ埋め込みモデル(例:ConvE)を用いて、観測されていないが妥当な可能性のある事実のためのソフト報酬を推定することで、報酬形状化を実施し、誤ったネガティブの影響を低減する。
- アクションドロップアウトを導入することで、各ステップで出力エッジをランダムにマスクする正則化技術を実装し、多様なパスの探索を促進し、あり得ない軌道への過学習を低減する。
- 事前学習済み埋め込みモデルから導出された変更された報酬信号を用いて、オンポリシー強化学習(REINFORCE)を実行し、方策学習をガイドする。
- エージェントが事前計算されたパスに依存せずに、質問に答えるためにKGを順次通過する逐次意思決定フレームワーク上で、エンドツーエンドでモデルを学習する。
- 知識ベースの報酬推定と確率的探索を組み合わせることで、不完全なKG環境下での方策一般化を向上させる。
実験結果
リサーチクエスチョン
- RQ1不完全な知識グラフにおける誤ったネガティブ監視を、強化学習ベースのマルチホップ推論中にどのように軽減できるか?
- RQ2オンポリシー強化学習におけるあり得ないパスの利用が、KGQAにおける方策性能をどの程度劣化させるか?
- RQ3事前学習済み埋め込みモデルを統合することで、RLベースのKG推論における報酬推定と一般化性を向上させられるか?
- RQ4アクションドロップアウトによる多様なパス探索の強制が、より良い一般化性と耐性をもたらすか?
- RQ5パスベースRLモデルは、マルチホップKG質問応答において、最先端の埋め込みベースモデルと同等の性能を達成できるか?
主な発見
- 提案手法は5つのベンチマークデータセットのうち4つ(UMLS、Kinship、FB15k-237、WN18RR)で最先端の性能を達成し、先行するパスベースモデルと比較してMRRが顕著に向上した。
- UMLSではMRRが70.9を達成し、ベースライン比で14.4%の向上を示し、埋め込みベースモデルと同等またはそれを上回る性能を示した。
- FB15k-237ではMRRを63.9から69.1に向上させ、相対的に5.2%の向上を達成し、ConvE(埋め込みベースモデル)と同等の性能を示した。
- アクションドロップアウトは未学習のクエリにおいて一貫して性能向上をもたらし、特に高密度のto-many関係を有するデータセット(例:UMLS、Kinship)で顕著な向上が観察された。
- ConvEを用いた報酬形状化はto-many関係において性能向上をもたらしたが、WN18RRおよびNELL-995ではわずかに結果を劣化させた。これは、分野依存の有効性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。