Skip to main content
QUICK REVIEW

[논문 리뷰] Variational inference for sparse network reconstruction from count data

Julien Chiquet, Mahendra Mariadassou|arXiv (Cornell University)|2018. 06. 08.
Bioinformatics and Genomic Networks참고 문헌 11인용 수 28
한 줄 요약

이 논문은 다변량 카운트 데이터에서 희소 네트워크 복원을 위해 다변량 포아송-로그노멀(PLN) 모형을 사용하는 변분 추론 방법을 제안한다. 여기서 잠재된 가우시안 변수는 상관관계를 캡처하고, 정규화된 우도를 통한 페널티 항을 통해 희소성은 유도된다. 이 방법은 기존의 두 단계 접근법에 비해 직접적으로 카운트 데이터를 모델링하고, 오프셋과 공변량을 통합하며, 마이크로생물학적 데이터에서 더 정확하고 생물학적으로 해석 가능한 네트워크를 도출함으로써 성능을 뛰어넘는다.

ABSTRACT

In multivariate statistics, the question of finding direct interactions can be formulated as a problem of network inference - or network reconstruction - for which the Gaussian graphical model (GGM) provides a canonical framework. Unfortunately, the Gaussian assumption does not apply to count data which are encountered in domains such as genomics, social sciences or ecology. To circumvent this limitation, state-of-the-art approaches use two-step strategies that first transform counts to pseudo Gaussian observations and then apply a (partial) correlation-based approach from the abundant literature of GGM inference. We adopt a different stance by relying on a latent model where we directly model counts by means of Poisson distributions that are conditional to latent (hidden) Gaussian correlated variables. In this multivariate Poisson lognormal-model, the dependency structure is completely captured by the latent layer. This parametric model enables to account for the effects of covariates on the counts. To perform network inference, we add a sparsity inducing constraint on the inverse covariance matrix of the latent Gaussian vector. Unlike the usual Gaussian setting, the penalized likelihood is generally not tractable, and we resort instead to a variational approach for approximate likelihood maximization. The corresponding optimization problem is solved by alternating a gradient ascent on the variational parameters and a graphical-Lasso step on the covariance matrix. We show that our approach is highly competitive with the existing methods on simulation inspired from microbiological data. We then illustrate on three various data sets how accounting for sampling efforts via offsets and integrating external covariates (which is mostly never done in the existing literature) drastically changes the topology of the inferred network.

연구 동기 및 목표

  • 유전체학 및 생태학 분야에서 다변량 카운트 데이터에 대한 강력한 네트워크 추론 방법의 부족을 해결하기 위해.
  • 카운트 데이터에 적용할 때 가우시안 그래픽 모형(GGMs)의 한계를 잠재된 가우시안 구조를 통해 극복하기 위해.
  • 기존 방법에서 거의 이루어지지 않는 바탕이 되는 샘플링 노력(오프셋을 통해)과 외부 공변량을 네트워크 복원에 통합하기 위해.
  • 유의미한 해석성과 통계적 일致성을 유지하면서도 확장 가능한 희소 네트워크 추정 절차를 개발하기 위해.
  • 카운트 데이터를 직접 모델링하여 가짜 가우시안 데이터로 변환하는 것보다 네트워크 구조의 정확도를 향상시키기 위해.

제안 방법

  • 잠재된 가우시안 변수가 상관관계를 캡처하는 다변량 포아송-로그노멀(PLN) 분포를 사용하여 다변량 카운트 데이터를 모델링한다.
  • 직접 상호작용를 식별하기 위해 잠재된 가우시안 벡터의 정밀행렬에 페널티 항을 도입하여 희소성 조건을 부여한다.
  • 불가피한 정규화된 우도를 근사하기 위해 변분 추론을 사용하여 확장 가능한 최적화를 가능하게 한다.
  • 변분 매개변수에 대한 기울기 상승과 그래픽-라소 단계를 번갈아가며 공분산 행렬을 업데이트한다.
  • 샘플링 노력과 혼란 요인을 고려하기 위해 오프셋과 공변량을 포아송 분포의 평균 구조에 직접 통합한다.
  • 최적의 페널티 수준을 네트워크 안정성 기반으로 선택하기 위해 StARS(안정성 기반 정규화 선택 방법)를 적용한다.

실험 결과

연구 질문

  • RQ1잠재된 가우시안 모형을 사용하고 카운트 데이터를 포아송 분포로 모델링할 경우, 카운트를 가짜 가우시안 데이터로 변환하는 두 단계 접근법에 비해 네트워크 추론 성능이 뛰어나게 되는가?
  • RQ2오프셋과 공변량을 통합할 경우 생태학적 및 마이크로생물학적 데이터에서 추론된 네트워크의 구조와 해석 가능성은 어떻게 영향을 받는가?
  • RQ3제안된 변분 추론 프레임워크는 실제 및 시뮬레이션된 카운트 데이터에서 기존 방법에 비해 더 안정적이고 정확한 네트워크를 도출하는가?
  • RQ4공변량의 포함이 기존 방법으로는 포착되지 않는 생물학적으로 의미 있는 상호작용를 드러내는 데 어느 정도 기여하는가?
  • RQ5식물-병원체 시스템에서 저항성과 감수성 숲에서 네트워크 구조는 어떻게 다를지, 그리고 공통 네트워크가 둘 다의 핵심 상호작용를 포괄할 수 있는가?

주요 결과

  • 제안된 PLNnetwork 방법은 마이크로생물학적 데이터 기반의 시뮬레이션에서 두 단계 접근법(예: SPIEC-EASI, BAnoCC)에 비해 네트워크 복원 정확도에서 뚜렷한 우월성을 보였다.
  • 오프셋과 공변량을 통합함으로써 네트워크의 구조적 특성이 근본적으로 변화하였으며, 기존 방법이 놓친 생물학적으로 관련성이 있는 상호작용가를 드러냈다.
  • 감수성 나무에서 추론된 네트워크는 E. alphitoides가 f1278와는 적대적이고 f29와는 상호주의적 관계에 있음을 보여주어 f19를 통해 병원성 역할을 하는 것으로 나타났다.
  • 저항성과 감수성 나무의 데이터를 통합한 공통 네트워크는 저항성 전용 네트워크에 완전히 포함되지 않은 안정적인 박테리아 종 군집(b21, b25, b26, b153, b33)을 드러내었으며, 이는 통계적 검정력 향상의 결과로 여겨진다.
  • 회귀 계수 분석에서 남서(SW) 방향과 수목 상태 간 강한 상호작용가 존재함을 확인하였으며, 특히 감수성 나무의 남서면 잎에서는 박테리아가 뚜렷하게 감소해 있었다.
  • 안정성 임계값 0.995에서 StARS 선택 방법은 최소한의 가짜 양성 결과를 생성하여 추론된 간선의 강건성을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.