[论文解读] Link Prediction via Generalized Coupled Tensor Factorisation
本文提出广义耦合张量分解(GCTF)用于链接预测,通过共享潜在因子联合建模异质数据——矩阵与高阶张量。结果表明,采用适当的张量模型(CP、Tucker)与损失函数(KL散度、欧几里得距离)进行耦合分析可显著提升预测准确率,尤其在高稀疏性和冷启动条件下表现更优。
This study deals with the missing link prediction problem: the problem of predicting the existence of missing connections between entities of interest. We address link prediction using coupled analysis of relational datasets represented as heterogeneous data, i.e., datasets in the form of matrices and higher-order tensors. We propose to use an approach based on probabilistic interpretation of tensor factorisation models, i.e., Generalised Coupled Tensor Factorisation, which can simultaneously fit a large class of tensor models to higher-order tensors/matrices with com- mon latent factors using different loss functions. Numerical experiments demonstrate that joint analysis of data from multiple sources via coupled factorisation improves the link prediction performance and the selection of right loss function and tensor model is crucial for accurately predicting missing links.
研究动机与目标
- 通过利用异质数据源,解决在稀疏、多关系数据集上预测缺失链接的挑战。
- 克服单一视图模型因数据稀疏性和不完整性导致性能不佳的局限。
- 通过共享潜在因子联合分析矩阵与张量,提升链接预测性能。
- 通过利用相关数据源的辅助信息,解决新用户缺乏历史数据的冷启动问题。
- 研究张量模型选择(CP与Tucker)及损失函数(KL与欧几里得)对预测性能的影响。
提出的方法
- 采用广义耦合张量分解(GCTF)——一种概率框架,支持在共享潜在因子下同时拟合多个张量与矩阵模型。
- 使用不同的张量模型——CANDECOMP/PARAFAC(CP)与Tucker——每种具有不同的分解结构,以捕捉不同复杂度的数据特征。
- 应用多种损失函数:Kullback-Leibler(KL)散度与欧几里得距离,以适切地建模数据分布与噪声特性。
- 将联合分解问题表述为优化任务,尊重数据的稀疏模式,确保可扩展性。
- 利用来自多个数据源(如GPS轨迹、位置特征)的辅助信息,提升不完整数据集中的链接预测性能。
- 在GCTF框架内实现迭代更新规则,专门设计以保持稀疏性,并支持大规模数据的高效计算。
实验结果
研究问题
- RQ1与单视图分解相比,对异质数据(矩阵与张量)进行耦合分析在链接预测性能上提升多少?
- RQ2哪种张量模型(CP与Tucker)与损失函数(KL与欧几里得)的组合能实现最佳链接预测性能?
- RQ3所提出的耦合模型能否有效解决用户数据完全缺失时的冷启动问题?
- RQ4随着数据稀疏性增加,性能如何退化?耦合模型在高缺失率下是否仍保持鲁棒性?
- RQ5使用辅助数据源是否显著提升了真实世界稀疏数据集中链接预测的准确性?
主要发现
- 耦合模型始终优于标准低秩张量近似,尤其在超过80%数据缺失时表现更优。
- 在高稀疏性条件下,Kullback-Leibler(KL)散度损失函数优于基于欧几里得距离的损失函数。
- Tucker模型性能优于CP模型,因其全核心张量带来的更高灵活性,能更好捕捉结构模式。
- 所提出的耦合模型成功解决了冷启动问题:即使用户数据切片完全缺失10个或50个,预测仍保持准确,得益于辅助数据的利用。
- 当90%的条目缺失时,采用KL散度的耦合Tucker模型达到最高AUC,表明其在极端稀疏条件下的鲁棒性。
- GCTF框架通过尊重数据稀疏性实现可扩展推理,适用于大规模真实世界应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。