[论文解读] Variational inference for sparse network reconstruction from count data
本文提出一种基于多变量泊松-对数正态(PLN)模型的变分推断方法,用于从多变量计数数据中重构稀疏网络,其中通过潜变量高斯结构捕捉依赖关系,并利用惩罚似然法诱导稀疏性。该方法通过直接建模计数数据、整合偏移量和协变量,相较于现有两步法,在微生物数据中实现了更高准确度且更具生物学可解释性的网络。
In multivariate statistics, the question of finding direct interactions can be formulated as a problem of network inference - or network reconstruction - for which the Gaussian graphical model (GGM) provides a canonical framework. Unfortunately, the Gaussian assumption does not apply to count data which are encountered in domains such as genomics, social sciences or ecology. To circumvent this limitation, state-of-the-art approaches use two-step strategies that first transform counts to pseudo Gaussian observations and then apply a (partial) correlation-based approach from the abundant literature of GGM inference. We adopt a different stance by relying on a latent model where we directly model counts by means of Poisson distributions that are conditional to latent (hidden) Gaussian correlated variables. In this multivariate Poisson lognormal-model, the dependency structure is completely captured by the latent layer. This parametric model enables to account for the effects of covariates on the counts. To perform network inference, we add a sparsity inducing constraint on the inverse covariance matrix of the latent Gaussian vector. Unlike the usual Gaussian setting, the penalized likelihood is generally not tractable, and we resort instead to a variational approach for approximate likelihood maximization. The corresponding optimization problem is solved by alternating a gradient ascent on the variational parameters and a graphical-Lasso step on the covariance matrix. We show that our approach is highly competitive with the existing methods on simulation inspired from microbiological data. We then illustrate on three various data sets how accounting for sampling efforts via offsets and integrating external covariates (which is mostly never done in the existing literature) drastically changes the topology of the inferred network.
研究动机与目标
- 解决基因组学和生态学等领域中多变量计数数据缺乏稳健网络推断方法的问题。
- 通过潜变量高斯结构克服高斯图形模型(GGMs)在应用于计数数据时的局限性。
- 将采样努力(通过偏移量)和外部协变量整合到网络重构中,而这一点在现有方法中极少被考虑。
- 开发一种可扩展的稀疏网络估计方法,同时保持可解释性和统计一致性。
- 通过直接建模计数数据而非转换为伪高斯数据,提升网络拓扑结构的准确性。
提出的方法
- 使用多变量泊松-对数正态(PLN)分布建模多变量计数数据,其中潜变量高斯向量捕捉依赖结构。
- 通过惩罚项在潜变量高斯向量的精度矩阵上施加稀疏性,以识别直接相互作用。
- 使用变分推断近似难以计算的惩罚似然,从而实现可扩展的优化。
- 在变分参数的梯度上升与图-lasso步骤之间交替更新协方差矩阵。
- 将偏移量和协变量直接整合到泊松分布的均值结构中,以考虑采样努力和混杂因素。
- 应用StARS(稳定性正则化选择方法)基于网络稳定性选择最优惩罚水平。
实验结果
研究问题
- RQ1具有泊松分布计数的潜变量高斯模型是否能优于将计数数据转换为伪高斯数据的两步法,在网络推断中表现更优?
- RQ2在生态学和微生物学数据中,整合偏移量和协变量如何影响推断网络的拓扑结构和可解释性?
- RQ3所提出的变分推断框架在真实和模拟计数数据上是否能产生比现有方法更稳定、更准确的网络?
- RQ4协变量的引入在多大程度上揭示了标准方法未能捕捉到的生物上合理的相互作用?
- RQ5在植物-病原体系统中,抗性与感病宿主的网络结构有何差异?共识网络是否能捕捉到两类宿主中的关键相互作用?
主要发现
- 在基于微生物数据的模拟中,所提出的PLNnetwork方法在网络恢复准确性上显著优于两步法(如SPIEC-EASI、BAnoCC)。
- 整合偏移量和协变量会显著改变网络拓扑,揭示出标准方法所遗漏的生物相关相互作用。
- 从感病树木推断出的网络显示,E. alphitoides 与 f1278 菌物呈拮抗关系,与 f29 菌物呈互利关系,提示其通过 f19 介导的致病作用。
- 共识网络(结合抗性与感病树木的数据)揭示了一个稳定的细菌物种簇(b21, b25, b26, b153, b33),该簇在仅抗性树木的网络中未完全显现,可能归因于统计功效的提升。
- 回归系数显示,西南朝向与树木状态之间存在显著交互作用,感病树木的西南朝向叶片中细菌显著减少。
- 在稳定性阈值为0.995时,StARS选择方法生成的网络假阳性极少,证实了推断边的稳健性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。