[论文解读] DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
引入一个基于策略的强化学习框架(DeepPath),在大型知识图中学习多跳关系路径,由奖励函数平衡准确性、多样性和效率引导。在 Freebase (FB15K-237) 和 NELL 数据集上,性能超越 PRA 和 KG 嵌入方法。
We study the problem of learning to reason in large scale knowledge graphs (KGs). More specifically, we describe a novel reinforcement learning framework for learning multi-hop relational paths: we use a policy-based agent with continuous states based on knowledge graph embeddings, which reasons in a KG vector space by sampling the most promising relation to extend its path. In contrast to prior work, our approach includes a reward function that takes the accuracy, diversity, and efficiency into consideration. Experimentally, we show that our proposed method outperforms a path-ranking based algorithm and knowledge graph embedding methods on Freebase and Never-Ending Language Learning datasets.
研究动机与目标
- 在大型知识图谱中激发多跳推理,并解决像 PRA 这样的离散路径方法的局限性。
- 提出在连续嵌入空间中操作的基于策略的RL代理,以发现信息丰富的关系路径。
- 设计一个奖励函数,联合优化发现路径的准确性、多样性和效率。
- 展示在基准 KG 数据集上相对于 PRA 和嵌入方法的可扩展性和经验优越性。
提出的方法
- 将 KG 推理任务建模为具有来自 TransE 风格嵌入的连续状态表示的 MDP。
- 使用策略网络在每一步输出所有关系作为动作的概率。
- 用 REINFORCE 训练策略,并在受仿真学习启发的监督预训练阶段进行(随机化的 BFS 路径)。
- 将奖励函数结合全局准确性(若达到目标则+1,否则-1)、基于路径长度的效率(1/长度)和多样性(-与过去路径的平均余弦相似度)。
- 在评估阶段采用双向路径约束搜索,以高效验证学习到的推理公式。
- 对策略更新应用 Adam 优化,带 L2 正则化。
实验结果
研究问题
- RQ1在知识嵌入空间上的强化学习能否学习出可靠的多跳推理路径?
- RQ2将准确性、多样性和效率结合的奖励函数,是否比以往基于路径的方法能提升路径质量和学习效率?
- RQ3在链接和事实预测任务上,RL 基于 DeepPath 与 PRA 和 KG 嵌入方法在标准 KG 数据集上的表现如何?
- RQ4监督式预训练和通过双向搜索的路径验证是否有助于在大规模知识图谱上的可扩展性和性能?
- RQ5所发现的 RL 路径是否比传统路径排序或嵌入方法产生的路径更短且更具多样性?
主要发现
- 基于 RL 的 DeepPath 在 FB15K-237 和 NELL-995 上的链接预测中优于 PRA 和嵌入方法,按 MAP 衡量。
- DeepPath 发现的推理路径显著更少但更具预测力,优于 PRA(例如每个任务的平均路径数量显著减少)。
- 在奖励中结合全局准确性、效率和多样性可获得更好的定性和定量路径质量。
- 双向路径验证降低搜索复杂度,并在评估学习到的路径时提高鲁棒性。
- 监督式预训练显著帮助在大动作空间中的 RL 收敛,并在训练期间提高早期成功率(succ_10)。
- 在事实预测任务中,DeepPath 在大多数关系/数据集上普遍超越嵌入基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。