QUICK REVIEW

[論文レビュー] Variational inference for sparse network reconstruction from count data

Julien Chiquet, Mahendra Mariadassou|arXiv (Cornell University)|Jun 8, 2018

Bioinformatics and Genomic Networks参考文献 11被引用数 28

ひとこと要約

本稿では、多変量カウントデータからスパースなネットワークを再構築するための変分推論手法を提案する。多変量ポアソン-ログニューラル（PLN）モデルを用い、潜在的なガウス変数が依存関係を捉え、罰則付き尤度によってスパarsityを誘導する。この手法は、2段階的手法に比べて直接的にカウントデータをモデル化し、オフセットと共変量を組み込み、微生物学的データにおいてより正確で生物学的に解釈可能なネットワークを生成する。

ABSTRACT

In multivariate statistics, the question of finding direct interactions can be formulated as a problem of network inference - or network reconstruction - for which the Gaussian graphical model (GGM) provides a canonical framework. Unfortunately, the Gaussian assumption does not apply to count data which are encountered in domains such as genomics, social sciences or ecology. To circumvent this limitation, state-of-the-art approaches use two-step strategies that first transform counts to pseudo Gaussian observations and then apply a (partial) correlation-based approach from the abundant literature of GGM inference. We adopt a different stance by relying on a latent model where we directly model counts by means of Poisson distributions that are conditional to latent (hidden) Gaussian correlated variables. In this multivariate Poisson lognormal-model, the dependency structure is completely captured by the latent layer. This parametric model enables to account for the effects of covariates on the counts. To perform network inference, we add a sparsity inducing constraint on the inverse covariance matrix of the latent Gaussian vector. Unlike the usual Gaussian setting, the penalized likelihood is generally not tractable, and we resort instead to a variational approach for approximate likelihood maximization. The corresponding optimization problem is solved by alternating a gradient ascent on the variational parameters and a graphical-Lasso step on the covariance matrix. We show that our approach is highly competitive with the existing methods on simulation inspired from microbiological data. We then illustrate on three various data sets how accounting for sampling efforts via offsets and integrating external covariates (which is mostly never done in the existing literature) drastically changes the topology of the inferred network.

研究の動機と目的

遺伝学や生態学などの分野における多変量カウントデータに対する頑健なネットワーク推定手法の不足に対処すること。
ガウス graphical モデル（GGMs）をカウントデータに適用した場合の限界を、潜在的なガウス構造によって克服すること。
サンプリング効率（オフセットを介して）と外部共変量をネットワーク再構築に統合すること。これは、既存手法ではめったに実施されていない。
解釈可能性と統計的整合性を維持しながら、スケーラブルなスパースネットワーク推定手順を開発すること。
カウントデータを直接モデル化することで、疑似ガウスデータに変換するのではなく、ネットワークトポロジーの精度を向上させること。

提案手法

多変量カウントデータを、依存構造を捉える潜在ガウス変数を有する多変量ポアソン-ログニューラル（PLN）分布でモデル化する。
直接的な相互作用を特定するために、潜在ガウスベクトルの精度行列に罰則項を課してスパarsityを導入する。
計算不能な罰則付き尤度を近似するために変分推論を用い、スケーラブルな最適化を可能にする。
変分パラメータにおける勾配上昇とグラフィカル・ラソステップを交互に実行し、共分散行列を更新する。
オフセットと共変量をポアソン分布の平均構造に直接組み込み、サンプリング効率と交絡要因を補正する。
最適な罰則レベルの選択のために、StARS（Stability Approach to Regularization Selection）を適用する。

実験結果

リサーチクエスチョン

RQ1ポアソン分布に従うカウントデータを用いた潜在ガウスモデルは、カウントデータを疑似ガウスデータに変換する2段階的手法を上回るネットワーク推定性能を示すか？
RQ2オフセットと共変量を組み込むことで、生態学的および微生物学的データにおける推定ネットワークのトポロジーと解釈可能性はどのように変化するか？
RQ3提案された変分推論フレームワークは、実データおよびシミュレーションデータにおいて、既存手法に比べてより安定的かつ正確なネットワークを生成するか？
RQ4共変量の組み込みにより、標準的手法が捉えられない生物学的に意味のある相互作用がどれほど明らかにされるか？
RQ5植物-病原体系におけるレジスタンス型と感受性型の宿主間で、ネットワーク構造はどのように異なるか。また、コンSENSUSネットワークは両者の主要な相互作用を捉えられるか？

主な発見

提案されたPLNnetwork手法は、微生物学的データに基づくシミュレーションにおいて、2段階的手法（例：SPIEC-EASI、BAnoCC）に比べて顕著に高いネットワーク回復精度を示した。
オフセットと共変量を組み込むことで、ネットワークトポロジーが顕著に変化し、標準的手法が見逃す生物学的に関連性のある相互作用が明らかになった。
感受性木から得られたネットワークでは、E. alphitoides が f1278 に対して拮抗的で、f29 に対しては相互主義的であることが示され、f19 を介した病原的役割が示唆された。
抵抗性木と感受性木の両方のデータを統合したコンセンサスネットワークは、抵抗性木のみのネットワークには完全には現れない安定した細菌群集団（b21, b25, b26, b153, b33）を明らかにした。これは統計的パワーの向上によるものと考えられる。
回帰係数から、南西面（SW）向きと木の状態の間に強く有意な相互作用が認められ、感受性木のSW面を向いた葉では細菌が顕著に減少していた。
安定性閾値0.995におけるStARS選択法により、誤検出が最小限に抑えられたネットワークが得られ、推定エッジの堅牢性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。