[论文解读] Hierarchical Bayesian model of population structure reveals convergent adaptation to high altitude in human populations
本研究提出一种分层贝叶斯模型,用于检测具有复杂人口历史的人类群体中的选择信号,相比成对分析方法,显著提升了统计效能并降低了假阳性率。该方法应用于美洲和亚洲的高海拔人群,揭示了在两个大陆中均存在对低氧环境的趋同遗传适应,突显了共享的生物学通路。
Detecting genes involved in local adaptation is challenging and of fundamental importance in evolutionary, quantitative, and medical genetics. To this aim, a standard strategy is to perform genome scans in populations of different origins and environments, looking for genomic regions of high differentiation. Because shared population history or population sub-structure may lead to an excess of false positives, analyses are often done on multiple pairs of populations, which leads to i) a global loss of power as compared to a global analysis, and ii) the need for multiple tests corrections. In order to alleviate these problems, we introduce a new hierarchical Bayesian method to detect markers under selection that can deal with complex demographic histories, where sampled populations share part of their history. Simulations show that our approach is both more powerful and less prone to false positive loci than approaches based on separate analyses of pairs of populations or those ignoring existing complex structures. In addition, our method can identify selection occurring at different levels (i.e. population or region-specific adaptation), as well as convergent selection in different regions. We apply our approach to the analysis of a large SNP dataset from low- and high-altitude human populations from America and Asia. The simultaneous analysis of these two geographic areas allows us to identify several new candidate genome regions for altitudinal selection, and we show that convergent evolution among continents has been quite common. In addition to identifying several genes and biological processes involved in high altitude adaptation, we identify two specific biological pathways that could have evolved in both continents to counter toxic effects induced by hypoxia.
研究动机与目标
- 解决在具有共享人口历史的人类群体中检测局部适应的挑战,此类历史可能干扰标准基因组扫描方法的准确性。
- 克服成对群体比较方法的局限性,包括统计效能较低以及需要进行多重检验校正的问题。
- 同时分析不同地理区域的多个群体,以检测区域特异性选择与趋同选择。
- 识别因适应高海拔低氧环境而受到选择的基因组区域及生物学通路。
- 在不同层级上区分选择信号——群体水平选择与区域特异性或趋同适应。
提出的方法
- 开发一种分层贝叶斯框架,用于建模多个群体之间的群体结构和共享祖先关系。
- 将群体历史和亚结构信息整合到模型中,以减少人口历史混杂导致的假阳性结果。
- 使用马尔可夫链蒙特卡洛(MCMC)方法估计每个基因组标记的选择系数的后验分布。
- 通过分层先验分布,允许在不同层级上存在不同的选择模式(例如,群体特异性选择与跨大陆趋同选择)。
- 在多种人口历史情景下模拟数据,以验证该方法的统计效能和第一类错误率。
- 将该模型应用于来自美洲和亚洲低海拔与高海拔人群的大规模SNP数据集,以检测选择信号。
实验结果
研究问题
- RQ1与标准成对方法相比,分层贝叶斯模型在检测具有复杂人口历史的人群选择信号方面,其效能提升程度如何?
- RQ2在不同大陆的高海拔人群(如安第斯山脉和青藏高原)中,是否存在基因组区域受到趋同选择?
- RQ3该模型能否有效区分区域特异性适应与跨地理区域的趋同适应?
- RQ4高海拔人类群体中哪些生物学通路富集于选择信号,且这些通路在不同大陆之间是否存在重叠?
- RQ5考虑共享人口历史后,对真实阳性选择信号的识别有何影响?
主要发现
- 在模拟中,分层贝叶斯模型表现出比基于成对FST的方法更高的统计效能和更低的假阳性率。
- 该方法成功检测到美洲和亚洲高海拔人群中多个候选基因组区域受到选择。
- 跨大陆普遍存在对高海拔的趋同适应,特定基因组区域显示出共享的选择信号。
- 两个生物学通路——参与氧稳态调节和线粒体功能——被确定为对低氧环境趋同进化的潜在靶点。
- 该模型揭示了不同层级的选择信号,包括区域特异性适应和跨大陆趋同适应。
- 此前已报道与高海拔适应相关的多个基因在本研究中以更高置信度被重新识别,支持了该方法的可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。