Skip to main content
QUICK REVIEW

[논문 리뷰] Scalable Multiple Network Inference with the Joint Graphical Horseshoe

Camilla Lingjærde, Benjamin P. Fairfax|arXiv (Cornell University)|2022. 06. 23.
Bioinformatics and Genomic Networks인용 수 3
한 줄 요약

이 논문은 베이지안 그래픽스 호새마루 추론을 위한 확장 가능한 기대조건부최대화(Expectation Conditional Maximisation, ECM) 알고리즘을 제안하고, 다중 네트워크 추정을 위한 공동 그래픽스 호새마루를 도입한다. 간선별 수축과 네트워크 간 정보 공유를 통해 기존 방법에 비해 우수한 정확도와 확장성을 달성하며, 특히 공통적이고 고유한 네트워크 구조를 가진 고차원적, 다중 조건의 오미크스 데이터에서 뛰어난 성능을 보인다.

ABSTRACT

Network models are useful tools for modelling complex associations. In statistical omics, such models are increasingly popular for identifying and assessing functional relationships and pathways. If a Gaussian graphical model is assumed, conditional independence is determined by the non-zero entries of the inverse covariance (precision) matrix of the data. The Bayesian graphical horseshoe estimator provides a robust and flexible framework for precision matrix inference, as it introduces local, edge-specific parameters which prevent over-shrinkage of non-zero off-diagonal elements. However, its applicability is currently limited in statistical omics settings, which often involve high-dimensional data from multiple conditions that might share common structures. We propose (i) a scalable expectation conditional maximisation (ECM) algorithm for the original graphical horseshoe, and (ii) a novel joint graphical horseshoe estimator, which borrows information across multiple related networks to improve estimation. We show numerically that our single-network ECM approach is more scalable than the existing graphical horseshoe Gibbs implementation, while achieving the same level of accuracy. We also show that our joint-network proposal successfully leverages shared edge-specific information between networks while still retaining differences, outperforming state-of-the-art methods at any level of network similarity. Finally, we leverage our approach to clarify gene regulation activity within and across immune stimulation conditions in monocytes, and formulate hypotheses on the pathogenesis of immune-mediated diseases.

연구 동기 및 목표

  • 고차원 베이지안 그래픽스 호새마루 모델에서 기존의 기대값 샘플링(Gibbs sampling)이 계산적으로 불가능한 문제를 해결하기 위해.
  • 오미크스 응용 분야에서 단일 및 다중 가우시안 그래픽스 모델에 대한 확장 가능한 추론을 가능하게 하기 위해.
  • 유사한 네트워크 간 정보를 공유하면서도 조건별 차이를 유지하는 공동 모델링 프레임워크를 개발하기 위해.
  • 희소 간선 선택에서 높은 신뢰도를 가진 간선을 식별함으로써 추정 정확도를 향상시키기 위해.

제안 방법

  • 그래픽스 호새마루의 정밀도 행렬 사후 추정을 위한 ECM 알고리즘을 제안하여 계산 비용이 높은 기대값 샘플링 대체.
  • 다중 네트워크 간 전역 및 국소 수축 매개변수를 공유하는 계층적 베이지안 모델인 공동 그래픽스 호새마루를 도입.
  • 비제로 간선의 과도한 수축을 방지하기 위해 비대칭 정밀도 행렬 원소에 전역-국소 호새마루 사전분포를 적용.
  • 후행 확률을 반복적으로 최대화함으로써 고차원 설정에서 효율적인 계산을 가능하게 하는 ECM 알고리즘을 활용.
  • 네트워크 간 유사성과 이질성을 균형 있게 조절하기 위해 공유 및 조건별 초매개변수를 통합.
  • 단일 및 공동 네트워크 추론을 위한 R 패키지인 fastGHS와 jointGHS를 제공.

실험 결과

연구 질문

  • RQ1ECM 기반 추론 절차는 그래픽스 호새마루에서 정확도를 유지하면서도 기대값 샘플링 대비 확장성에서 뛰어나게 성능을 높일 수 있는가?
  • RQ2공동 그래픽스 호새마루는 다양한 조건 간 공통 네트워크 구조를 효과적으로 활용하면서도 조건별 차이를 손상시키지 않고 잘 유지하는가?
  • RQ3다양한 네트워크 유사성 상황에서 최신 기술 대비 공동 그래픽스 호새마루의 성능은 어떠한가?
  • RQ4실제 오미크스 데이터에서, 특히 면역 자극 하에 유전자 조절 네트워크를 식별하는 데에 이 방법은 어떤 성능을 보이는가?

주요 결과

  • fastGHS의 ECM 알고리즘은 기대값 샘플링과 동일한 정확도를 달성하지만, 훨씬 더 뛰어난 확장성을 보이며 실제 오미크스 데이터 크기에서의 추론을 가능하게 한다.
  • jointGHS는 모든 네트워크 유사성 수준에서 JGL, SSJGL, GemBag을 일관되게 능가하며, AUPRC0.3 점수가 약 0.3에 수렴하여 거짓 양성률이 매우 낮음을 시사한다.
  • p = 200개의 노드와 100% 네트워크 불일치 조건에서의 시뮬레이션에서 jointGHS는 AUPRC0.3가 0.296를 유지하며 JGL(0.284)과 SSJGL(0.292)를 능가했다.
  • 이 방법은 간선 선택에서 높은 정밀도를 보이며, 추가 간선에 대한 증거가 부족할 경우에만 재현율이 급격히 감소함으로써 희소 추정에서의 강건성을 보였다.
  • jointGHS의 CPU 시간은 p에 대해 제곱 이하로 증가하여 두 조건에서 최대 1000개 노드의 네트워크 추론을 가능하게 한다.
  • 단핵구 면역 자극 데이터에 적용한 결과, 생물학적으로 타당한 유전자 조절 네트워크를 규명하고 면역 매개 질환 발병 기전에 대한 새로운 가설을 도출하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.