[论文解读] Learning from History: Modeling Temporal Knowledge Graphs with Sequential Copy-Generation Networks
本文提出CyGNet,一种新颖的时间知识图谱嵌入模型,通过利用时间感知的复制-生成机制,从历史模式中学习以预测未来事实。通过结合复用已知过去事实的复制模式与生成新预测的生成模式,CyGNet在多个基准测试中达到最先进性能,在GDELT数据集上相较先前方法将MRR提升10.80%,Hits@1提升12.10%。
Large knowledge graphs often grow to store temporal facts that model the dynamic relations or interactions of entities along the timeline. Since such temporal knowledge graphs often suffer from incompleteness, it is important to develop time-aware representation learning models that help to infer the missing temporal facts. While the temporal facts are typically evolving, it is observed that many facts often show a repeated pattern along the timeline, such as economic crises and diplomatic activities. This observation indicates that a model could potentially learn much from the known facts appeared in history. To this end, we propose a new representation learning model for temporal knowledge graphs, namely CyGNet, based on a novel timeaware copy-generation mechanism. CyGNet is not only able to predict future facts from the whole entity vocabulary, but also capable of identifying facts with repetition and accordingly predicting such future facts with reference to the known facts in the past. We evaluate the proposed method on the knowledge graph completion task using five benchmark datasets. Extensive experiments demonstrate the effectiveness of CyGNet for predicting future facts with repetition as well as de novo fact prediction.
研究动机与目标
- 为解决时间知识图谱(TKG)不完整的问题,开发一种时间感知的表征学习模型,利用历史事实模式进行建模。
- 通过显式建模重复出现的时间事实,提升时间知识图谱中的未来事实预测性能,此类模式在经济危机、外交活动等现实动态中普遍存在。
- 设计统一框架,结合从过去事实中复用的复发感知复制机制与开放词汇表生成机制,实现从零开始的新事实预测。
- 在基准数据集上评估模型的有效性,尤其关注高复发率与密集历史数据场景下的表现。
提出的方法
- CyGNet采用双模式推理机制:复制模式与生成模式,使其能够通过引用已知过去事实或从完整实体词汇表中生成新事实来预测。
- 复制模式使用时间感知注意力机制,基于同一主语-关系对中先前观察到的事实,识别并预测未来事实,模仿摘要生成中的复制机制。
- 生成模式从整个开放世界词汇表中预测实体,确保模型能够泛化至从未见过的新事实。
- 最终预测结果为两种模式的加权组合,使模型能够动态平衡已知模式的复用与新事实的生成。
- 模型通过负采样策略进行端到端训练,以优化时间知识图谱补全任务中的链接预测性能。
- 通过时间感知的实体与关系嵌入随快照演化,架构中融入时间动态,实现长期依赖关系的建模。
实验结果
研究问题
- RQ1知识图谱表征模型能否有效从历史事实中学习,以提升时间知识图谱中的未来事实预测性能?
- RQ2建模时间重复模式对动态环境下知识图谱补全性能有何影响?
- RQ3将基于复制的预测与开放词汇表生成相结合,能在多大程度上提升对复发事实与新事实的预测能力?
- RQ4在不同数据集中主语与宾语实体复发率变化时,模型性能表现如何?
- RQ5复制模式与生成模式对整体预测性能的相对贡献分别是什么?
主要发现
- CyGNet在五个基准数据集上达到最先进性能,相较于先前最先进方法,在GDELT数据集上MRR提升10.80%,Hits@1提升12.10%。
- 在ICEWS18数据集上,当移除复制模式时,MRR下降12.11%至46.69%,表明历史事实复用在模型中具有关键作用。
- 消融实验表明,移除生成模式导致MRR下降4.09%,证实其在从零开始预测新事实中的重要性。
- CyGNet在复发率均衡的数据集(如ICEWS14、ICEWS18)上表现显著更优,而在WIKI数据集上表现受限,原因在于主语与宾语间复发率严重失衡。
- 变体CyGNet -Generation-new(在生成阶段排除复制)性能低于完整模型,表明原始设计更有效地结合了复制与生成机制。
- CyGNet在GDELT上表现优异,归因于其更密集的历史事实,为复制机制提供了更多可利用的参考点。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。