Skip to main content
QUICK REVIEW

[논문 리뷰] Comparison between instrumental variable and mediation-based methods for reconstructing causal gene networks in yeast

Adriaan-Alexander Ludl, Tom Michoel|arXiv (Cornell University)|2020. 10. 14.
Bioinformatics and Genomic Networks참고 문헌 42인용 수 6
한 줄 요약

이 연구는 대량의 분離계통(1,012주)과 YEASTRACT에서 확보한 기초 데이터를 이용해 효모에서 인과적 유전자 네트워크를 재구성하기 위해 통제변수(IV) 방법과 중재 기반 방법을 비교한다. IV 방법은 더 높은 민감도를 보이지만 유전자 링크리그로 인해 잘못된 양성 결과를 유발하는 반면, 중재 기반 방법은 큰 표본 크기에서 성능이 포화 상태에 이르며 STB5와 같은 자가조절 유전자들을 놓친다. 그러나 DNM1과 같은 새로운 후보 유전자들을 식별한다.

ABSTRACT

Causal gene networks model the flow of information within a cell, but reconstructing them from omics data is challenging because correlation does not imply causation. Combining genomics and transcriptomics data from a segregating population allows to orient the direction of causality between gene expression traits using genomic variants. Instrumental-variable methods (IV) use a local expression quantitative trait locus (eQTL) as a randomized instrument for a gene's expression level, and assign target genes based on distal eQTL associations. Mediation-based methods (ME) additionally require that distal eQTL associations are mediated by the source gene. Here we used Findr, a software providing uniform implementations of IV, ME, and coexpression-based methods, a recent dataset of 1,012 segregants from a cross between two budding yeast strains, and the YEASTRACT database of known transcriptional interactions to compare causal gene network inference methods. We found that causal inference methods result in a significant overlap with the ground-truth, whereas coexpression did not perform better than random. A subsampling analysis revealed that the performance of ME decreases at large sample sizes, due to a loss of sensitivity when residual correlations become significant. IV methods contain false positive predictions, due to genomic linkage between eQTL instruments. IV and ME methods also have complementary roles for identifying causal genes underlying transcriptional hotspots. IV methods correctly predicted STB5 targets for a hotspot centred on the transcription factor STB5, whereas ME failed due to Stb5p auto-regulating its own expression. ME suggests a new candidate gene, DNM1, for a hotspot on Chr XII, where IV methods could not distinguish between multiple genes located within the hotspot.

연구 동기 및 목표

  • 효모에서 인과적 유전자 네트워크 재구성에 있어 통제변수(IV) 및 중재 기반 방법을 비교하기 위해.
  • 효모 교잡으로부터 유도된 1,012개의 분리계통으로 구성된 대규모 고해상도 데이터셋을 사용해 성능을 평가하기 위해.
  • YEASTRACT 데이터베이스에서 확보한 기초 네트워크를 기반으로 한 방법 성능 평가를 위해.
  • 표본 크기의 증가가 중재 기반 방법 성능에 미치는 영향을 조사하기 위해.
  • 유전자 링크리그로 인한 IV 방법의 한계 및 중재 분석에서 잔류 상관관계의 영향을 규명하기 위해.

제안 방법

  • Findr라는 소프트웨어 패키지를 사용하여 IV, 중재, 공변동 기반 방법의 통일된 구현을 제공하였다.
  • 유전자 발현에 대한 무작위화된 도구로 지역 eQTL을 사용하여 통제변수 방법을 적용하였다.
  • 원인 유전자가 거리에 있는 eQTL 연관성을 중재하는 조건을 필요로 하는 중재 기반 방법을 적용하였다.
  • 표본 크기가 증가함에 따라 성능 포화 상태를 평가하기 위해 부분표본 분석을 수행하였다.
  • 후행 확률(1 - 국소 거짓 발견률)을 사용하여 통계적 검정을 통합하고 인과적 네트워크를 추론하였다.
  • 기존 전사 상호작용 데이터베이스인 YEASTRACT과의 비교를 통해 결과를 검증하였다.

실험 결과

연구 질문

  • RQ1효모의 다오미크스 데이터에서 통제변수 방법과 중재 기반 방법은 어떻게 인과적 유전자 네트워크 재구성을 비교할 수 있는가?
  • RQ2중재 기반 인과 추론의 성능에 대해 표본 크기가 증가함에 따라 어떤 영향을 미치는가?
  • RQ3유전자 링크리그가 존재할 경우 통제변수 방법이 잘못된 양성 예측을 유도하는 이유는 무엇인가?
  • RQ4중재 기반 방법은 IV 방법이 실패하는 전사적 핫스팟에서 새로운 인과적 타겟을 식별할 수 있는가?
  • RQ5잔류 상관관계와 다중기능성은 각 방법의 신뢰성에 어떤 영향을 미치는가?

주요 결과

  • 통제변수 방법은 기초 네트워크와 상당한 겹침을 보였고, 공변동 방법은 랜덤 수준 이하의 성능을 보였다.
  • 중재 기반 방법은 표본 크기가 커짐에 따라 잔류 상관관계가 유의미해지면서 성능이 포화 상태에 이르렀다.
  • 통제변수 방법은 특히 전사적 핫스팟 지역에서 eQTL 도구 간의 유전자 링크리그로 인해 잘못된 양성 결과를 유발하였다.
  • STB5를 중심으로 한 핫스팟에서는 IV 방법이 STB5 타겟을 정확히 예측한 반면, 중재 방법은 Stb5p가 자신의 발현을 자가조절하기 때문에 실패하였다.
  • 중재 방법은 염색체 XII의 핫스팟에서 DNM1을 새로운 후보 유전자로 식별하였고, 이는 IV 방법이 주변의 다른 유전자들과 구분하지 못한 영역이었다.
  • 이 연구는 두 방법이 상호보완적인 역할을 하며, IV 방법이 더 높은 민감도를 제공하고, 중재 방법이 링크리그를 해결하고 새로운 타겟을 식별하는 데 기여함을 결론으로 내렸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.