[论文解读] Regression with network cohesion
本文提出一种基于网络的惩罚项,应用于回归模型中,以鼓励社会网络中相连个体的预测值趋于相似,利用网络凝聚力提升预测准确性。当应用于AddHealth研究中的青少年行为数据时,该方法显著提升了对休闲活动和大麻使用行为的预测性能,同时保持了可解释的协变量效应。
Prediction algorithms typically assume the training data are independent samples, but in many modern applications samples come from individuals connected by a network. For example, in adolescent health studies of risk-taking behaviors, information on the subjects' social network is often available and plays an important role through network cohesion, the empirically observed phenomenon of friends behaving similarly. Taking cohesion into account in prediction models should allow us to improve their performance. Here we propose a network-based penalty on individual node effects to encourage similarity between predictions for linked nodes, and show that incorporating it into prediction leads to improvement over traditional models both theoretically and empirically when network cohesion is present. The penalty can be used with many loss-based prediction methods, such as regression, generalized linear models, and Cox's proportional hazard model. Applications to predicting levels of recreational activity and marijuana usage among teenagers from the AddHealth study based on both demographic covariates and friendship networks are discussed in detail and show that our approach to taking friendships into account can significantly improve predictions of behavior while providing interpretable estimates of covariate effects.
研究动机与目标
- 解决传统预测模型假设训练样本独立的局限性,该假设在社交网络数据中常被违反。
- 将网络凝聚力——朋友间行为相似的倾向——整合到统计预测模型中,以提升预测准确性。
- 开发一种可推广的惩罚方法,适用于多种基于损失函数的模型,包括回归、广义线性模型和Cox比例风险模型。
- 在行为健康研究中,通过显式建模网络结构,展示预测性能的提升与可解释的协变量效应。
- 为公共卫生和社会科学研究中的预测建模提供一种实用框架,以整合社会网络信息。
提出的方法
- 引入一种基于网络的惩罚项,对网络中相连节点的个体预测值进行正则化,使其趋于相似。
- 该惩罚项被表述为关联节点间预测差异的二次函数,以促进预测的一致性。
- 将该惩罚项整合到标准损失函数(如最小二乘法、对数似然)中,构建改进的估计目标函数。
- 该方法适用于多种模型,包括线性回归、广义线性模型和Cox比例风险模型。
- 通过标准优化技术进行估计,将网络惩罚项加入损失函数,以平衡拟合优度与网络凝聚力。
- 该方法允许同时估计网络效应与传统协变量效应,支持可解释的推断。
实验结果
研究问题
- RQ1在回归模型中引入网络凝聚力,是否能提升社交网络中个体行为的预测准确性?
- RQ2在网络依赖存在的情况下,基于网络的惩罚项如何影响协变量效应的估计?
- RQ3在真实世界的行为数据中,所提出的方法在多大程度上优于忽略网络结构的标准模型?
- RQ4该方法是否可推广至多种预测模型类型,如线性模型与生存模型?
- RQ5当显式建模网络凝聚力时,估计效应的可解释性如何?
主要发现
- 与标准模型相比,该方法在AddHealth数据集中显著提升了对休闲活动和大麻使用行为的预测准确性。
- 通过利用朋友间行为的相似性,引入网络凝聚力可提升预测精度。
- 即使在模型中包含网络结构的情况下,该模型仍能保持协变量效应估计的可解释性。
- 网络惩罚项在多种预测模型中均表现有效,包括线性回归和Cox比例风险模型。
- 实证结果表明,网络凝聚力是一种有意义的信息信号,当被适切建模时,可增强预测性能。
- 该方法为将关系数据整合到标准统计建模框架中提供了合理方法,无需引入复杂的网络特异性假设。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。