Skip to main content
QUICK REVIEW

[论文解读] Comparison between instrumental variable and mediation-based methods for reconstructing causal gene networks in yeast

Adriaan-Alexander Ludl, Tom Michoel|arXiv (Cornell University)|Oct 14, 2020
Bioinformatics and Genomic Networks参考文献 42被引用 6
一句话总结

本研究利用一个包含1,012个菌株的大规模分离群体和YEASTRACT数据库提供的真实数据,比较了在酵母中重建因果基因网络的工具变量(IV)方法与基于中介效应的方法。研究发现,IV方法具有更高的敏感性,但因基因组连锁导致假阳性结果;而基于中介效应的方法在大样本量下性能趋于饱和,且会遗漏如STB5这类自调节基因,但能识别出DNM1等新型候选基因,特别是在转录热点区域。

ABSTRACT

Causal gene networks model the flow of information within a cell, but reconstructing them from omics data is challenging because correlation does not imply causation. Combining genomics and transcriptomics data from a segregating population allows to orient the direction of causality between gene expression traits using genomic variants. Instrumental-variable methods (IV) use a local expression quantitative trait locus (eQTL) as a randomized instrument for a gene's expression level, and assign target genes based on distal eQTL associations. Mediation-based methods (ME) additionally require that distal eQTL associations are mediated by the source gene. Here we used Findr, a software providing uniform implementations of IV, ME, and coexpression-based methods, a recent dataset of 1,012 segregants from a cross between two budding yeast strains, and the YEASTRACT database of known transcriptional interactions to compare causal gene network inference methods. We found that causal inference methods result in a significant overlap with the ground-truth, whereas coexpression did not perform better than random. A subsampling analysis revealed that the performance of ME decreases at large sample sizes, due to a loss of sensitivity when residual correlations become significant. IV methods contain false positive predictions, due to genomic linkage between eQTL instruments. IV and ME methods also have complementary roles for identifying causal genes underlying transcriptional hotspots. IV methods correctly predicted STB5 targets for a hotspot centred on the transcription factor STB5, whereas ME failed due to Stb5p auto-regulating its own expression. ME suggests a new candidate gene, DNM1, for a hotspot on Chr XII, where IV methods could not distinguish between multiple genes located within the hotspot.

研究动机与目标

  • 比较工具变量与基于中介效应的方法在酵母中重建因果基因网络的表现。
  • 利用来自酵母杂交的1,012个分离株的大型高分辨率数据集评估方法性能。
  • 基于YEASTRACT数据库提供的真实网络评估方法性能。
  • 研究样本量对基于中介效应方法性能的影响。
  • 识别方法的局限性,包括IV方法中的基因组连锁问题以及中介分析中的残留相关性。

提出的方法

  • 使用Findr软件包,该工具包提供了IV、中介效应和共表达方法的统一实现。
  • 应用工具变量方法,以局部eQTL作为随机化工具来推断基因表达。
  • 应用基于中介效应的方法,要求远端eQTL关联由源基因介导。
  • 通过子采样分析评估性能随样本量增加的饱和程度。
  • 使用后验概率(1 - 局部错误发现率)整合统计检验,推断因果网络。
  • 将结果与YEASTRACT数据库中已知的转录相互作用进行验证。

实验结果

研究问题

  • RQ1在酵母的多组学数据中,工具变量方法与基于中介效应的方法在重建因果基因网络方面有何异同?
  • RQ2样本量增加对基于中介效应的因果推断性能有何影响?
  • RQ3为何在存在基因组连锁的情况下,工具变量方法会产生假阳性预测?
  • RQ4基于中介效应的方法是否能在IV方法失效的转录热点区域识别出新型因果靶点?
  • RQ5残留相关性和多效性如何影响每种方法的可靠性?

主要发现

  • 工具变量方法与真实网络存在显著重叠,而共表达方法的性能并不优于随机水平。
  • 由于残留相关性随样本量增加而变得显著,基于中介效应的方法在大样本量下性能趋于饱和。
  • 工具变量方法因eQTL工具与基因组连锁区域之间存在连锁关系,导致假阳性结果,尤其在转录热点区域更为明显。
  • 在以STB5为中心的热点区域,IV方法正确预测了STB5的靶基因,而中介方法因Stb5p自调节其自身表达而失败。
  • 中介方法在第XII号染色体上的一个热点区域中识别出DNM1作为新型候选基因,而IV方法无法将该基因与其他邻近基因区分开。
  • 本研究结论认为,两种方法具有互补作用:IV方法具有更高的敏感性,而中介方法能够解决连锁问题并识别出新型靶点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。