Skip to main content
QUICK REVIEW

[论文解读] Joint discovery of haplotype blocks and complex trait associations from SNP sequences

Nebojša Jojić, Vladimir Jojic|arXiv (Cornell University)|Jul 7, 2004
Genetic Mapping and Diversity in Plants and Animals参考文献 3被引用 8
一句话总结

本文提出了一种数据驱动的分层统计模型,能够从非分型SNP数据中联合推断单倍体型块结构与复杂性状关联,克服了分型模糊性和缺失数据的问题。该方法在染色体5q31的SNP数据上实现了80%的克罗恩病检测准确率,且误差方差较低。

ABSTRACT

Haplotypes, the global patterns of DNA sequence variation, have important implications for identifying complex traits. Recently, blocks of limited haplotype diversity have been discovered in human chromosomes, intensifying the research on modelling the block structure as well as the transitions or co-occurrence of the alleles in these blocks as a way to compress the variability and infer the associations more robustly. The haplotype block structure analysis is typically complicated by the fact that the phase information for each SNP is missing, i.e., the observed allele pairs are not given in a consistent order across the sequence. The techniques for circumventing this require additional information, such as family data, or a more complex sequencing procedure. In this paper we present a hierarchical statistical model and the associated learning and inference algorithms that simultaneously deal with the allele ambiguity per locus, missing data, block estimation, and the complex trait association. While the block structure may differ from the structures inferred by other methods, which use the pedigree information or previously known alleles, the parameters we estimate, including the learned block structure and the estimated block transitions per locus, define a good model of variability in the set. The method is completely data-driven and can detect Chron's disease from the SNP data taken from the human chromosome 5q31 with the detection rate of 80% and a small error variance.

研究动机与目标

  • 解决在缺乏分型信息的情况下,从非分型SNP数据中推断单倍体型块结构与性状关联的挑战。
  • 开发一种方法,能够同时处理等位基因模糊性、缺失数据、块估计与性状关联,且不依赖家系或已知等位基因信息。
  • 创建一种完全基于数据驱动的方法,稳健地建模单倍体型块的转换及其与复杂性状的关联。
  • 通过SNP序列提高全基因组研究中复杂性状关联检测的准确性和鲁棒性。

提出的方法

  • 该方法采用分层统计模型,整合了未观测到的单倍体型相位和块边界作为隐变量。
  • 利用学习与推理算法,从非分型SNP数据中联合估计块结构、块内等位基因转换以及性状关联。
  • 通过在概率框架中将单倍体型相位视为隐藏变量,处理缺失数据和相位模糊性。
  • 在每个位点对块转换进行建模,捕捉等位基因在不同块中的共现模式,以压缩遗传变异。
  • 该方法完全基于数据驱动,避免依赖家系数据或已知参考等位基因等外部信息。

实验结果

研究问题

  • RQ1在缺乏先验分型信息的情况下,如何可靠地从非分型SNP数据中推断单倍体型块结构?
  • RQ2联合建模块结构与性状关联在多大程度上能提升复杂疾病关联的检测能力?
  • RQ3完全基于数据驱动的方法是否能在识别与疾病相关的单倍体型方面优于依赖家系或参考数据的方法?
  • RQ4对块转换的建模对复杂性状关联检测的准确性有何影响?

主要发现

  • 该方法成功地从人类染色体5q31的SNP数据中检测出克罗恩病,检测率达到80%。
  • 该模型实现了较低的误差方差,表明在非分型数据和缺失相位信息的情况下,性状关联推断仍具有高精度。
  • 推断出的块结构与基于家系或依赖参考等位基因的方法所得结果不同,表明其提供了另一种有效但不同的遗传变异表示方式。
  • 对块结构与性状关联的联合估计,形成了一种稳健的遗传变异模型,能够捕捉SNP序列中的复杂模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。