[论文解读] Tensor Decompositions for temporal knowledge base completion
本文将知识库完成的张量分解扩展到时态数据,提出基于时态 ComplEx 的模型(TComplEx)以及包含非时态组件的 TNTComplEx 变体,并引入正则化,以及一个基于 Wikidata 的大规模数据集用于评估。
Most algorithms for representation learning and link prediction in relational data have been designed for static data. However, the data they are applied to usually evolves with time, such as friend graphs in social networks or user interactions with items in recommender systems. This is also the case for knowledge bases, which contain facts such as (US, has president, B. Obama, [2009-2017]) that are valid only at certain points in time. For the problem of link prediction under temporal constraints, i.e., answering queries such as (US, has president, ?, 2012), we propose a solution inspired by the canonical decomposition of tensors of order 4. We introduce new regularization schemes and present an extension of ComplEx (Trouillon et al., 2016) that achieves state-of-the-art performance. Additionally, we propose a new dataset for knowledge base completion constructed from Wikidata, larger than previous benchmarks by an order of magnitude, as a new reference for evaluating temporal and non-temporal link prediction methods.
研究动机与目标
- 在知识库中阐明时态链接预测的动机,并探讨事实的时态有效性。
- 将张量分解方法扩展到四阶张量(主语、谓词、宾语、时间戳)以进行时态知识库完成。
- 引入正则化和非时态组件以处理异质的时态数据。
- 提供一个由 Wikidata 派生的可扩展的大规模数据集,用于基准测试时态和非时态知识库完成方法。
提出的方法
- 通过添加时间戳因子,将 ComplEx 扩展到时态设定:X_hat(U,V,T) = Re([U, V, conj(U), T]).
- 引入一个非时态组件以处理不随时间变化的谓词,从而得到 TNTComplEx。
- 使用张量核 p-范数变分形式(p=3,4)以及对时间嵌入的平滑项进行正则化。
- 将张量展开以推导正则化方案,根据边际统计对模态进行加权并适应采样。
- 通过观测三元组的交叉熵损失和采样的负样本进行训练,包括互惠关系以稳定学习。
- 呈现一个基于 Wikidata 的大规模数据集,包含 432,715 个实体、407 条谓词和 1,724 个时间戳,用于训练 7M 条时态与非时态三元组。
实验结果
研究问题
- RQ1ComplEx 的时态扩展(TComplEx)是否能够有效建模知识库中随时间变化的关系?
- RQ2在异质时态知识库上,添加非时态组件(TNTComplEx)是否提高了性能?
- RQ3哪些正则化策略(核 p-范数变分形式与时间平滑)可以改善时态知识库完成的性能?
- RQ4所提出的方法在像 Wikidata 这样的网页规模时态知识库上同时对时态和非时态谓词的可扩展性如何?
主要发现
- TComplEx 和 TNTComplEx 在 ICEWS14、ICEWS05-15 和 Yago15k 上以与基线参数数量相当的情况下达到最先进的性能。
- 使用核 p-范数变分形式和时间平滑的正则化能显著提升 MRR,在某些数据集上带来最高可达 0.07 的绝对提升。
- 一个基于 Wikidata 的大规模数据集(7M 训练三元组,432K 实体,407 谓词,1.7K 时间戳)为时态和非时态知识库完成提供了可扩展的基准。
- TNTComplEx 展示出具有竞争力的时态性能,同时维持较强的非时态性能,证明了共享参数、混合时态方法的合理性。
- 尽管增加了时态建模,训练效率对于相似参数量的静态模型而言仍然可比。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。