[论文解读] On the Convexity of Latent Social Network Inference
该论文提出了一种凸优化框架,用于从扩散数据中推断潜在的社会网络——其中仅观察到感染时间——通过将传染传播建模为概率过程,并使用l1-正则化最大似然估计。该方法实现了近乎完美的网络恢复,且可高效扩展至数千个节点,在准确性和最优性保证方面优于先前的方法。
In many real-world scenarios, it is nearly impossible to collect explicit social network data. In such cases, whole networks must be inferred from underlying observations. Here, we formulate the problem of inferring latent social networks based on network diffusion or disease propagation data. We consider contagions propagating over the edges of an unobserved social network, where we only observe the times when nodes became infected, but not who infected them. Given such node infection times, we then identify the optimal network that best explains the observed data. We present a maximum likelihood approach based on convex programming with a l1-like penalty term that encourages sparsity. Experiments on real and synthetic data reveal that our method near-perfectly recovers the underlying network structure as well as the parameters of the contagion propagation model. Moreover, our approach scales well as it can infer optimal networks of thousands of nodes in a matter of minutes.
研究动机与目标
- 为解决仅能获取节点感染时间而无法观察谁感染了谁时,推断未观测到的社会网络的挑战。
- 开发一种通用、最优且可扩展的潜在网络推断方法,不假设边的传播概率均匀。
- 通过将问题表述为具有最优性保证的凸优化任务,克服先前启发式或基于阈值方法的局限性。
- 实现从现实世界扩散级联中准确恢复网络拓扑结构与边传播参数。
提出的方法
- 为潜在网络上的传染传播建立生成概率模型,其中观察到感染时间但传播路径未知。
- 推导潜在网络结构与边传播参数的最大似然估计问题。
- 通过一系列数学重构,将非凸似然最大化问题转化为凸优化问题。
- 引入类似l1的惩罚项,以在推断网络中鼓励稀疏性,促进现实的低密度结构。
- 使用标准凸优化技术高效求解所得凸规划问题,实现大规模网络的可扩展性。
- 根据数据类型采用幂律或威布尔分布模型对传播时间进行参数化,以描述扩散过程。
实验结果
研究问题
- RQ1我们能否仅从节点感染时间推断出潜在的社会网络结构,而无需观察传播路径?
- RQ2是否能够以保证最优性的方式,联合估计网络拓扑结构与节点间的传播概率?
- RQ3与现有启发式或基于阈值的网络推断方法相比,所提出的凸优化方法在准确性和可扩展性方面表现如何?
- RQ4当应用于具有未知传播动态的真实世界扩散数据时,该方法在多大程度上能恢复真实网络结构与边权重?
主要发现
- 在合成数据和真实世界电子邮件网络与合作网络上,该方法在精确率-召回率的平衡点(break-even point)达到约0.95,表明网络恢复的精确率-召回率性能近乎完美。
- 在合成数据和真实数据集上,边传播概率估计误差小于0.03,表明参数恢复具有高精度。
- 即使仅观察到少量级联事件,该方法也能以高保真度恢复潜在网络结构,如在593个节点的电子邮件网络上所示。
- 在包含275名用户和1,522条边的真实推荐网络上,该方法的平衡点达到0.74,显著优于NetInf方法(0.55)的精确率-召回率表现。
- 该算法具有高效可扩展性,可在数分钟内推断出包含数千个节点的最优网络,并在20秒内处理完一个275个节点的推荐网络。
- 由于其凸优化公式,该方法保证全局最优性,而先前基于近似的方法(如NetInf)则不具备此保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。