[论文解读] Multi-Hop Knowledge Graph Reasoning with Reward Shaping
本文提出了一种用于多跳知识图谱推理的强化学习方法,通过使用预训练嵌入来塑造奖励,并应用动作丢弃以促进多样化路径探索,显著提升了性能。该方法在五大数据集上的表现显著优于现有基于路径的模型,并达到了与嵌入方法相当的最先进水平。
Multi-hop reasoning is an effective approach for query answering (QA) over incomplete knowledge graphs (KGs). The problem can be formulated in a reinforcement learning (RL) setup, where a policy-based agent sequentially extends its inference path until it reaches a target. However, in an incomplete KG environment, the agent receives low-quality rewards corrupted by false negatives in the training data, which harms generalization at test time. Furthermore, since no golden action sequence is used for training, the agent can be misled by spurious search trajectories that incidentally lead to the correct answer. We propose two modeling advances to address both issues: (1) we reduce the impact of false negative supervision by adopting a pretrained one-hop embedding model to estimate the reward of unobserved facts; (2) we counter the sensitivity to spurious paths of on-policy RL by forcing the agent to explore a diverse set of paths using randomly generated edge masks. Our approach significantly improves over existing path-based KGQA models on several benchmark datasets and is comparable or better than embedding-based models.
研究动机与目标
- 为解决在强化学习推理过程中不完整知识图谱中虚假负样本奖励的挑战。
- 减少在策略强化学习训练中,因偶然导致正确答案而对虚假路径产生策略偏差的问题。
- 在数据不完整的情况下,提升多跳知识图谱问答任务中的泛化能力和鲁棒性。
- 弥合基于路径与基于嵌入的知识图谱推理模型之间的性能差距。
提出的方法
- 使用预训练的一跳知识图谱嵌入模型(如ConvE)进行奖励塑造,以估计未观察到但可能正确的事实的软奖励,从而降低虚假负样本的影响。
- 引入动作丢弃作为正则化技术,在每一步随机屏蔽出边,促进多样化路径的探索,减少对虚假轨迹的过拟合。
- 采用基于策略的强化学习(REINFORCE)方法,使用源自预训练嵌入模型的修改后奖励信号来指导策略学习。
- 在端到端的序列决策框架中进行训练,其中智能体在知识图谱中行走以回答查询,无需依赖预计算的路径。
- 结合基于知识的奖励估计与随机探索,以提升在不完整知识图谱环境中的策略泛化能力。
实验结果
研究问题
- RQ1在基于强化学习的多跳推理过程中,如何缓解不完整知识图谱中的虚假负样本监督问题?
- RQ2在知识图谱问答的策略强化学习中,虚假路径的利用在多大程度上会降低策略性能?
- RQ3整合预训练嵌入模型是否能改善基于强化学习的知识图谱推理中的奖励估计与泛化能力?
- RQ4通过动作丢弃强制实现多样化路径探索,是否能带来更好的泛化与鲁棒性?
- RQ5基于路径的强化学习模型能否在多跳知识图谱问答任务中达到与最先进嵌入模型相当的性能?
主要发现
- 所提方法在五大数据集中的四个(UMLS、Kinship、FB15k-237、WN18RR)上达到最先进性能,相较于先前基于路径的模型,MRR显著提升。
- 在UMLS数据集上,模型MRR达到70.9,较基线提升14.4%,并达到或超过基于嵌入模型的性能。
- 在FB15k-237数据集上,MRR从63.9提升至69.1,相对提升5.2%,表现与基于嵌入的模型ConvE相当。
- 动作丢弃在未见查询上始终提升性能,尤其在关系密度高至多对多关系的数据集(如UMLS、Kinship)中效果最显著。
- 使用ConvE进行奖励塑造可提升对多对多关系的性能,但在WN18RR和NELL-995上略有下降,表明其效果具有领域依赖性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。