Skip to main content
QUICK REVIEW

[论文解读] Non-alignment comparison of human and high primate genomes

Valery Kirzhner, Svetlana Frenkel|arXiv (Cornell University)|Nov 26, 2011
Genomics and Phylogenetic Studies参考文献 43被引用 29
一句话总结

本研究提出一种非对齐方法,通过基于k-mer评分和GC含量的组成谱(CS)分析,比较人类与高等灵长类基因组,以检测无需依赖离散锚点的扩展保守共线性区域。该方法在非编码DNA中揭示出强烈的系统发育信号,包括重复元件和“暗物质”,结合k-mer与GC含量分析显著提升了对进化保守结构的检测能力。

ABSTRACT

Compositional spectra (CS) analysis based on k-mer scoring of DNA sequences was employed in this study for dot-plot comparison of human and primate genomes. The detection of extended conserved synteny regions was based on continuous fuzzy similarity rather than on chains of discrete anchors (genes or highly conserved noncoding elements). In addition to the high correspondence found in the comparisons of whole-genome sequences, a good similarity was also found after masking gene sequences, indicating that CS analysis manages to reveal phylogenetic signal in the organization of noncoding part of the genome sequences, including repetitive DNA and the genome "dark matter". Obviously, the possibility to reveal parallel ordering depends on the signal of common ancestor sequence organization varying locally along the corresponding segments of the compared genomes. We explored two sources contributing to this signal: sequence composition (GC content) and sequence organization (abundances of k-mers in the usual A,T,G,C or purine-pyrimidine alphabets). Whole-genome comparisons based on GC distribution along the analyzed sequences indeed gives reasonable results, but combining it with k-mer abundances dramatically improves the ordering quality, indicating that compositional and organizational heterogeneity comprise complementary sources of information on evolutionary conserved similarity of genome sequences.

研究动机与目标

  • 在不依赖基因或保守元件锚点的前提下,检测人类与高等灵长类基因组中的保守共线性区域。
  • 评估序列组成(GC含量)与序列组织(k-mer丰度)对进化相似性检测的贡献。
  • 探究非编码区域(包括重复DNA与“暗物质”)是否携带可通过组成分析检测到的系统发育信号。
  • 通过整合标准比对方法之外的多种基因组特征,提升全基因组比较的分辨率与准确性。

提出的方法

  • 基于DNA序列的k-mer评分,采用组成谱(CS)分析生成全基因组相似性图谱。
  • 使用点图可视化技术,基于连续模糊相似性而非离散锚点比较全基因组序列。
  • 对基因序列进行掩蔽,以分离并分析非编码区域,测试该方法对非编码进化信号的敏感性。
  • 将A、T、G、C碱基的k-mer丰度与嘌呤-嘧啶字母表的k-mer丰度结合,以增强相似性检测能力。
  • 通过评估比较区域中相似性信号的连续性与一致性,评估基因组排序的质量。
  • 将该方法应用于人类与高等灵长类基因组,基于共享的组成与组织模式识别保守共线性区域。

实验结果

研究问题

  • RQ1非对齐方法是否能在不依赖离散锚点的前提下检测人类与灵长类基因组中的保守共线性区域?
  • RQ2非编码区域(包括重复DNA与“暗物质”)在多大程度上包含可通过组成分析检测到的系统发育信号?
  • RQ3结合GC含量与k-mer丰度在多大程度上改善了对进化保守基因组结构的检测?
  • RQ4共同祖先的序列组织信号是否在非编码区域的组成与组织异质性中得以保留?
  • RQ5点图中的连续模糊相似性是否能在传统比对失败的情况下揭示有意义的进化关系?

主要发现

  • 该方法仅依赖k-mer与GC含量信号,成功检测到人类与灵长类基因组中扩展的保守共线性区域,无需序列比对。
  • 即使在掩蔽基因序列后,全基因组比较中仍观察到高度相似性,表明非编码区域携带显著的系统发育信息。
  • 与单独使用任一特征相比,k-mer丰度与GC分布的结合显著提升了基因组排序的质量。
  • 非编码DNA(包括重复元件)的组成与组织异质性,为进化保守性检测提供了互补信号。
  • 该方法表明,序列组织与组成的局部变异反映了共享的祖先基因组结构,支持其在比较基因组学中的应用。
  • 该方法在检测多种灵长类谱系中的保守区域方面表现出稳健性,表明其在非对齐基因组学中具有广泛适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。