[论文解读] Predicting Positive and Negative Links in Online Social Networks
本文提出了一种机器学习框架,利用局部网络邻域的结构特征来预测在线社交网络中链接的符号(正向或负向)。研究结果表明,整合负向边信息可显著提升预测准确率——尤其在维基百科上,性能从0.6983提升至0.7114——同时揭示了局部结构平衡与地位理论在Epinions、Slashdot和维基百科等多样化平台上的链接形成过程中具有基础性作用。
We study online social networks in which relationships can be either positive (indicating relations such as friendship) or negative (indicating relations such as opposition or antagonism). Such a mix of positive and negative links arise in a variety of online settings; we study datasets from Epinions, Slashdot and Wikipedia. We find that the signs of links in the underlying social networks can be predicted with high accuracy, using models that generalize across this diverse range of sites. These models provide insight into some of the fundamental principles that drive the formation of signed links in networks, shedding light on theories of balance and status from social psychology; they also suggest social computing applications by which the attitude of one user toward another can be estimated from evidence provided by their relationships with other members of the surrounding social network.
研究动机与目标
- 开发一种用于预测在线社交网络中链接符号的预测模型,其中关系可以是正向的(例如友谊)或负向的(例如不信任)。
- 探究带符号网络中的结构模式(如平衡与地位)是否在Epinions、Slashdot和维基百科等多样化在线平台中具有普适性。
- 评估在仅关注正向链接存在的任务中,整合负向边信息是否能提升正向边存在的预测性能。
- 将学习到的模型与既有的社会心理学理论(结构平衡与地位理论)进行比较,以验证其解释力。
- 使社会计算应用能够基于网络邻近区域观察到的关系,推断未观测到的用户态度。
提出的方法
- 将边符号预测问题建模为二分类任务:在已知所有其他带符号链接的前提下,预测两个节点之间链接的正负性。
- 计算16种不同的带符号有向三元组特征,以捕捉每对节点周围局部带符号邻域的模式。
- 使用基于正向边特征和正向加负向边特征的逻辑回归模型,对比其预测性能。
- 引入基于正向边4-路径模式(如FFpp、BBpp)的特征集,并将其与带符号三元组特征结合,以建模结构复杂性。
- 采用交叉验证框架,评估在Epinions、Slashdot和维基百科真实数据集上的模型准确率。
- 将模型性能与随机猜测(准确率为0.50)进行比较,并通过AUC类指标评估所有数据集上的性能提升。
实验结果
研究问题
- RQ1是否可以仅通过局部网络结构,高精度地预测带符号社交网络中链接的符号?
- RQ2社会心理学中的原则(特别是结构平衡与地位理论)是否能够解释观察到的正负链接模式?
- RQ3整合负向边信息是否能提升社交网络中正向边存在的预测性能?
- RQ4带符号网络中是否存在全局地位排序,还是更符合平衡理论所预测的对立派系结构?
- RQ5基于带符号网络特征的预测模型与仅依赖正向边的模型相比,性能如何?
主要发现
- 在Epinions上,整合负向边信息使符号预测准确率提升3个百分点(0.5911 vs. 0.5612),在Slashdot上同样提升3个百分点(0.5953 vs. 0.5579),相对于随机猜测的提升幅度达到50%。
- 在维基百科上,同时使用正向与负向特征的模型准确率达到0.7114,显著高于仅使用正向特征时的0.6983。
- 结果表明,负向关系并非孤立存在,而是与正向关系相互依赖,因此应联合建模以获得更优性能。
- 所有三个数据集中均存在强有力的证据支持全局地位排序,表明用户会隐式地根据感知地位对他人进行排序,这与地位理论一致。
- 相比之下,缺乏支持存在全局派系结构(即两股对立群体)的证据,表明结构平衡在局部层面的作用强于全局层面。
- 本研究证实,基于带符号网络特征训练的模型显著优于以往方法,尤其在包含负向边信号时表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。