[论文解读] Supervised Random Walks: Predicting and Recommending Links in Social Networks
本文提出了一种名为有监督随机游走(Supervised Random Walks, SRW)的新颖链路预测与推荐方法,通过学习边权重来引导随机游走,将节点和边的属性与网络结构相结合,以预测未来可能形成的链接。SRW 在无需人工特征工程的情况下,优于无监督方法和特征工程模型,在合作者网络上的前20名链路预测中精度相对提升了最高达12%,在Facebook网络上提升了11%。
Predicting the occurrence of links is a fundamental problem in networks. In the link prediction problem we are given a snapshot of a network and would like to infer which interactions among existing members are likely to occur in the near future or which existing interactions are we missing. Although this problem has been extensively studied, the challenge of how to effectively combine the information from the network structure with rich node and edge attribute data remains largely open. We develop an algorithm based on Supervised Random Walks that naturally combines the information from the network structure with node and edge level attributes. We achieve this by using these attributes to guide a random walk on the graph. We formulate a supervised learning task where the goal is to learn a function that assigns strengths to edges in the network such that a random walker is more likely to visit the nodes to which new links will be created in the future. We develop an efficient training algorithm to directly learn the edge strength estimation function. Our experiments on the Facebook social graph and large collaboration networks show that our approach outperforms state-of-the-art unsupervised approaches as well as approaches that are based on feature extraction.
研究动机与目标
- 解决在动态社交网络中结合丰富的节点和边属性与网络结构以实现准确链路预测的挑战。
- 克服无监督方法(如带重启的随机游走,RWR)无法利用属性信息的局限性。
- 通过以系统化的方式直接学习如何结合属性与网络结构,消除繁琐的手动特征工程需求。
- 设计一种可扩展的端到端学习框架,相较于最先进方法,提升链路预测与推荐性能。
提出的方法
- 将链路预测建模为有监督学习任务,通过学习边的强度(转移概率)来引导随机游走,使其更可能访问未来的目标节点。
- 利用节点和边的属性来参数化边权重,使随机游走能够同时受结构信号和属性信号的引导。
- 使用拟牛顿优化方法训练模型,以最小化损失函数,该函数促使随机游走更频繁地访问正样本(未来链路)节点。
- 在加权图上计算类似PageRank的得分,以估计节点对之间未来形成链接的可能性。
- 通过在源节点与候选目标节点之间的所有路径上平均边特征,整合路径特征。
- 采用可微分框架计算PageRank得分相对于边权重的梯度,从而实现高效的参数学习。
实验结果
研究问题
- RQ1如何有效结合节点和边属性与网络结构,以在无监督方法之外提升链路预测性能?
- RQ2有监督随机游走框架在多大程度上能超越需要大量特征工程的传统基于特征的模型?
- RQ3能否设计一种统一的学习框架,自然地整合结构信息与属性信息,而无需手动特征提取?
- RQ4在真实网络中,不同类型的节点和边特征(如时间特征、相似度特征)对预测性能的贡献如何?
- RQ5在大规模网络(如Facebook)中,学习多个边权重参数的可扩展性与运行时开销之间存在怎样的权衡?
主要发现
- 在Facebook和Hep-Ph合作者网络上,有监督随机游走的AUC为0.7–0.8,前20名精度为4.2–7.6,表明其具有强大的预测性能。
- 在合作者网络上,SRW相较于逻辑回归及其他基于特征的模型,在AUC上实现了6%的相对提升,在前20名精度上实现了12%的相对提升。
- 在Facebook网络上,SRW在前20名精度上相比带重启的随机游走(RWR)实现了11%的相对提升,尽管RWR本身已接近最优性能。
- SRW优于无监督的RWR和所有其他测试方法(包括逻辑回归),且无需人工特征工程。
- 该方法表明,在Facebook上时间特征影响最大,而在合作者网络中,合作者频率和标题相似度最为关键。
- 在Facebook数据集上训练8条边权重耗时96分钟,48条边权重耗时13小时,表明其对大规模网络具有可扩展性,且训练开销适中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。