Skip to main content
QUICK REVIEW

[论文解读] Bootstrapping Networks with Latent Space Structure

Keith Levin, Elizaveta Levina|arXiv (Cornell University)|Jul 25, 2019
Graph Theory and Algorithms参考文献 51被引用 25
一句话总结

本文提出了两种基于潜在空间模型的网络数据自展方法,特别针对随机点积图(RDPG)模型。第一种方法基于已建立的U统计量理论,对估计的潜在位置进行U统计量自展,从而实现对子图计数和中心性度量的高效推断;第二种方法通过重采样潜在位置并重新模拟边来生成完整的自展网络。在RDPG假设下,两种方法均表现出渐近分布一致性,其中U统计量方法在计算上更具优势。

ABSTRACT

A core problem in statistical network analysis is to develop network analogues of classical techniques. The problem of bootstrapping network data stands out as especially challenging, since typically one observes only a single network, rather than a sample. Here we propose two methods for obtaining bootstrap samples for networks drawn from latent space models. The first method generates bootstrap replicates of network statistics that can be represented as U-statistics in the latent positions, and avoids actually constructing new bootstrapped networks. The second method generates bootstrap replicates of whole networks, and thus can be used for bootstrapping any network function. Commonly studied network quantities that can be represented as U-statistics include many popular summaries, such as average degree and subgraph counts, but other equally popular summaries, such as the clustering coefficient, are not expressible as U-statistics and thus require the second bootstrap method. Under the assumption of a random dot product graph, a type of latent space network model, we show consistency of the proposed bootstrap methods. We give motivating examples throughout and demonstrate the effectiveness of our methods on synthetic data.

研究动机与目标

  • 为解决在仅观察到单一网络时网络推断中常见的限制,即无法进行自展分析的问题。
  • 开发一种计算高效的自展方法,适用于可表示为潜在位置U统计量的网络统计量,避免完整网络重采样。
  • 提供一种在RDPG模型下生成完整网络自展复制样本的方法,以拓展其在网络推断中的应用。
  • 在随机点积图模型下建立两种自展方法的理论一致性。
  • 通过利用潜在空间结构和已知的U统计量理论,改进现有子图计数自展技术。

提出的方法

  • 第一种方法使用谱方法从观测网络中估计潜在位置,然后对这些估计值的U统计量应用标准自展技术。
  • 第二种方法通过有放回地重采样估计的潜在位置,利用RDPG边概率模型生成新的邻接矩阵,从而生成完整的自展网络。
  • 基于U统计量和V统计量自展理论(例如,Arcones & Giné, 1992)的结果,在RDPG模型下建立了理论一致性。
  • 论文引入了一种图匹配距离以衡量网络相似性,该距离用于证明自展网络与原始网络之间的渐近分布等价性。
  • 在合成数据上对方法进行了验证,比较了不同自展方法在子图计数置信区间覆盖率方面的表现。
  • 探索了BCa校正方法以提高覆盖度,但计算成本仍是一个问题。

实验结果

研究问题

  • RQ1我们能否开发一种计算高效的自展方法,用于可表示为潜在位置U统计量的网络统计量?
  • RQ2我们能否生成在RDPG模型下与原始网络渐近分布等价的完整网络自展复制样本?
  • RQ3与现有方法(如经验图函数或子图采样)相比,所提出的自展方法在覆盖准确度上表现如何?
  • RQ4图匹配距离在建立自展网络与原始网络渐近等价性方面起到什么作用?
  • RQ5所提出的方法能否扩展到RDPG模型之外的其他潜在空间模型?

主要发现

  • U统计量自展方法通过避免完整网络重采样,实现了计算效率的提升,其核心在于重采样潜在位置并应用已知的U统计量自展理论。
  • 完整网络自展方法在RDPG模型下生成的网络与原始网络在图匹配距离度量下表现出渐近分布等价性。
  • 实证结果表明,两种所提方法在覆盖度上均优于现有方法,且RDPG自展方法的性能与假设模型知识完全正确的参数自展方法非常接近。
  • 在网络规模增大时,RDPG自展方法在覆盖准确度上显著优于经验图函数和子图采样方法。
  • BCa校正可提升覆盖度,但对大规模网络而言计算成本过高,提示需要考虑网络结构特征的校正方法。
  • 理论结果表明,图匹配距离下的收敛性并不能保证所有网络统计量(如子图密度)的收敛,提示需要更强的相似性度量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。