QUICK REVIEW

[论文解读] Two-Sample Tests for Large Random Graphs Using Network Statistics

Debarghya Ghoshdastidar, Maurilio Gutzeit|arXiv (Cornell University)|May 17, 2017

Complex Network Analysis Techniques参考文献 19被引用 27

一句话总结

本文提出一种针对大规模随机图的通用非参数两样本假设检验方法，基于网络统计量，并利用浓度不等式，在每种分布仅有一个图样本可用的情况下实现一致检验。该方法在三角形计数和邻接矩阵奇异值等关键统计量上达到极小极大最优，检测性能接近半稀疏 Erdős–Rényi 模型中可区分性的基本极限。

ABSTRACT

We consider a two-sample hypothesis testing problem, where the distributions are defined on the space of undirected graphs, and one has access to only one observation from each model. A motivating example for this problem is comparing the friendship networks on Facebook and LinkedIn. The practical approach to such problems is to compare the networks based on certain network statistics. In this paper, we present a general principle for two-sample hypothesis testing in such scenarios without making any assumption about the network generation process. The main contribution of the paper is a general formulation of the problem based on concentration of network statistics, and consequently, a consistent two-sample test that arises as the natural solution for this problem. We also show that the proposed test is minimax optimal for certain network statistics.

研究动机与目标

为解决在每种分布仅有一个图样本可用的常见情形下，大规模随机图两样本假设检验的挑战。
形式化一个不假设特定网络模型或独立同分布采样的一般性检验框架，转而依赖网络统计量。
建立在何种条件下可基于网络统计量的浓度性质构造一致且极小极大的最优检验。
证明所提出的检验方法在半稀疏 Erdős–Rényi 模型中，利用三角形计数和谱特征等常见统计量，可实现接近最优的检测率。

提出的方法

该方法基于一个普遍假设：在大图中，网络统计量会集中在其中心值附近，从而实现对两幅图的可靠比较。
将两样本检验形式化为在原假设与备择假设下，网络统计量 f 的集中点之间的比较。
检验采用基于 f 的估计集中点的阈值规则，其一致性在满足分离条件时已得证明。
对于基于三角形的统计量 fΔ，该方法利用非重叠三角形不相关性下的方差界以及最大期望度数的约束。
对于谱统计量 fλ，该方法利用邻接矩阵最大 k 个奇异值的浓度性质，其界通过迹矩和矩阵浓度不等式推导得出。
在匹配可区分性基本极限的分离条件下，该检验被证明具有统一一致性和极小极大最优性。

实验结果

研究问题

RQ1当每种分布仅有一个样本可用时，能否为大规模随机图构造一个一致的两样本检验，且不假设特定网络模型？
RQ2如何利用网络统计量定义一个适用于图比较的一般性非参数检验框架？
RQ3使用常见网络统计量时，两个随机图模型之间的可区分性基本极限是什么？
RQ4所提出的检验方法能否在三角形计数和谱特征等特定统计量上实现极小极大最优？
RQ5在半稀疏 Erdős–Rényi 模型下，该检验表现如何？一致检测所需的分离条件是什么？

主要发现

所提出的两样本检验具有统一一致性：当原假设与备择假设之间的分离足够大时，对于大图，其错误率可任意小。
对于三角形计数统计量 fΔ，该检验在对数因子范围内达到极小极大最优，与半稀疏 Erdős–Rényi 模型中的基本检测极限一致。
对于邻接矩阵的最大 k 个奇异值（fλ），当 k=2 时，该检验为极小极大最优，其分离条件恰好与理论分析中的充分条件一致。
该方法对图大小差异具有鲁棒性，且无需图之间顶点一一对应，因此适用于真实世界比较，如脑网络或社交媒体图。
理论结果表明，若分布间的分离低于推导出的极小极大阈值，则任何检验均无法实现有界错误率，从而证实了边界的紧致性。
该框架可广泛适用于任何在大图中表现出浓度性质的网络统计量，且对三角形计数和谱统计量已有明确验证。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。