[论文解读] Valid Two-Sample Graph Testing via Optimal Transport Procrustes and Multiscale Graph Correlation with Applications in Connectomics
该论文提出了一种基于最优传输普鲁斯特(OTP)的潜在位置对齐与多尺度图相关性(MGC)检验的稳健两样本图检验框架,在现有方法基础上显著提升了统计有效性与检验效能。在果蝇蘑菇体连接组数据上的应用表明,左右半球之间无显著差异;OTP成功解决了中位数翻转对齐的无效性问题,MGC在效能上优于DCorr。
Testing whether two graphs come from the same distribution is of interest in many real world scenarios, including brain network analysis. Under the random dot product graph model, the nonparametric hypothesis testing frame-work consists of embedding the graphs using the adjacency spectral embedding (ASE), followed by aligning the embeddings using the median flip heuristic, and finally applying the nonparametric maximum mean discrepancy(MMD) test to obtain a p-value. Using synthetic data generated from Drosophila brain networks, we show that the median flip heuristic results in an invalid test, and demonstrate that optimal transport Procrustes (OTP) for alignment resolves the invalidity. We further demonstrate that substituting the MMD test with multiscale graph correlation(MGC) test leads to a more powerful test both in synthetic and in simulated data. Lastly, we apply this powerful test to the right and left hemispheres of the larval Drosophila mushroom body brain networks, and conclude that there is not sufficient evidence to reject the null hypothesis that the two hemispheres are equally distributed.
研究动机与目标
- 解决在随机点积图模型下,由于潜在位置对齐的不可识别性导致的网络分析中假设检验无效的问题。
- 通过用最优传输普鲁斯特(OTP)替代中位数翻转法进行对齐,提升两样本图检验的统计效能与有效性。
- 通过用多尺度图相关性(MGC)替代最大均值差异(MMD)作为检验统计量,进一步提升检验性能。
- 在合成数据与果蝇幼虫蘑菇体连接组的真实数据上验证所提出的框架。
提出的方法
- 使用邻接谱嵌入(ASE)从两个图的邻接矩阵中估计潜在位置。
- 应用最优传输普鲁斯特(OTP)对齐估计的潜在位置,以解决正交不可识别性问题。
- 将标准的MMD检验替换为自适应选择最优尺度以检测依赖性的多尺度图相关性(MGC)。
- 使用MGC对对齐后的潜在位置执行两样本检验,以评估潜在分布是否相等。
- 使用k样本变换将独立性检验(如DCorr和MGC)适配于两样本检验。
- 通过在不同图大小与效应大小下对第一类错误控制与统计效能的评估来衡量性能。
实验结果
研究问题
- RQ1在RDPG模型下,潜在位置对齐的中位数翻转启发式方法是否能实现有效的两样本图检验?
- RQ2最优传输普鲁斯特(OTP)能否解决中位数翻转在两样本图检验中引入的无效性?
- RQ3多尺度图相关性(MGC)在检测图潜在分布差异方面,是否比距离相关性(DCorr)或MMD更具效能?
- RQ4果蝇幼虫蘑菇体网络的左右半球在潜在连接结构上是否在统计上等价?
主要发现
- 中位数翻转启发式方法导致检验无效,第一类错误超过名义水平α = 0.05,且随图大小增加而上升,尤其在无真实差异时更为明显。
- 最优传输普鲁斯特(OTP)成功解决了中位数翻转的无效性,所有测试图大小下均保持了正确的第一类错误控制。
- 在合成数据与模拟数据中,多尺度图相关性(MGC)的统计效能显著高于DCorr与MMD,尤其在中等至大效应大小下表现更优。
- 在果蝇幼虫蘑菇体网络上应用MGC+OTP后,p值范围为0.986(ˆd=1)至0.952(ˆd=5),未能拒绝半球间分布相等的原假设。
- 中位数翻转在高维潜在空间中(如ˆd=3)导致对齐错误,引发假阳性结果,p值低至0.001,而OTP保持了正确的对齐与有效推断。
- OTP对齐后嵌入的可视化显示所有维度下分布相似性一致,而中位数翻转在维度3中引发明显错位,尤其在左侧半球更为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。