Skip to main content
QUICK REVIEW

[论文解读] Submodular Inference of Diffusion Networks from Multiple Trees

Manuel Gomez-Rodriguez, Bernhard Sch lkopf|arXiv (Cornell University)|May 8, 2012
Complex Network Analysis Techniques参考文献 24被引用 41
一句话总结

该论文提出了一种可扩展的子模优化算法,通过考虑所有可能的传播树,从多个级联中推断扩散网络,实现了近乎最优的性能并具有可证明的保证。该方法在准确性和速度上均优于现有方法,尤其在级联数据较少时表现更优,尽管传播树空间呈超指数增长,其运行时间仍为二次方时间。

ABSTRACT

Diffusion and propagation of information, influence and diseases take place over increasingly larger networks. We observe when a node copies information, makes a decision or becomes infected but networks are often hidden or unobserved. Since networks are highly dynamic, changing and growing rapidly, we only observe a relatively small set of cascades before a network changes significantly. Scalable network inference based on a small cascade set is then necessary for understanding the rapidly evolving dynamics that govern diffusion. In this article, we develop a scalable approximation algorithm with provable near-optimal performance based on submodular maximization which achieves a high accuracy in such scenario, solving an open problem first introduced by Gomez-Rodriguez et al (2010). Experiments on synthetic and real diffusion data show that our algorithm in practice achieves an optimal trade-off between accuracy and running time.

研究动机与目标

  • 为动态网络中从有限扩散级联中实现可扩展网络推断这一开放问题提供解决方案。
  • 提升现有方法(如NetInf)的准确性,后者仅考虑每个级联中最可能的传播树。
  • 开发一种方法,高效处理多个级联中可能传播树的超指数数量。
  • 利用子模性实现近乎最优的推断性能,并提供可证明的理论保证。
  • 实现在仅观测到少量级联的情况下对大规模网络(例如100,000个以上节点)进行推断。

提出的方法

  • 该方法将扩散建模为解释每个观测级联的所有可能有向生成树的生成过程。
  • 将网络推断问题形式化为所有可能边集合上的子模最大化问题。
  • 证明目标函数具有子模性,从而可通过贪婪优化实现(1-1/e)近似保证。
  • 算法采用懒惰评估并利用局部结构加速计算。
  • 逐步计算边的增量收益,仅添加具有正收益的边,直至收敛。
  • 该方法考虑每个级联所支持的所有树,而NetInf仅考虑最可能的那棵树。

实验结果

研究问题

  • RQ1我们能否在动态、大规模网络中,仅依靠少量级联实现高精度的网络推断?
  • RQ2是否能够高效地优化所有可能传播树的超指数空间?
  • RQ3考虑所有树(而非仅最可能的那棵)是否能带来比仅考虑MAP树的方法更高的推断精度?
  • RQ4子模优化能否在此场景下同时提供可扩展性和理论性能保证?
  • RQ5与基于凸优化的方法(如NetRate和ConNIe)相比,所提方法在准确性和速度上表现如何?

主要发现

  • 在真实超链接数据上,所提方法的召回率高于NetInf、NetRate和ConNIe,表明其对真实网络边的覆盖更全面。
  • 在合成实验中,当仅存在少量级联时,该方法在准确性上优于NetInf和NetRate。
  • 在100,000个节点的网络和10,000个级联下,该算法每添加一条边的运行时间约为10.12毫秒,展现出极高的可扩展性。
  • 该方法比NetInf和NetRate快约一个数量级,且由于采用贪婪子模优化,显著快于ConNIe。
  • 尽管考虑了所有可能的树,但由于高效的子模优化,运行时间与仅考虑最可能树的NetInf相当。
  • 该方法通过增量收益提供边重要性的度量,即使不估计传播速率,也具备可解释性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。