Skip to main content
QUICK REVIEW

[论文解读] SOAPdenovo-Trans: De novo transcriptome assembly with short RNA-Seq reads

Yinlong Xie, Gengxiong Wu|arXiv (Cornell University)|May 29, 2013
Genomics and Phylogenetic Studies参考文献 16被引用 72
一句话总结

SOAPdenovo-Trans 是一种专为短 RNA-Seq 读段设计的从头转录组组装工具,采用改进的 de Bruijn 图方法,并结合转录本特异性优化,以提高连续性、减少冗余并加速组装。在水稻和小鼠数据集上的评估表明,该工具在重建全长转录本方面优于现有工具,尤其在表达水平可变和选择性剪接条件下表现更优。

ABSTRACT

Motivation: Transcriptome sequencing has long been the favored method for quickly and inexpensively obtaining the sequences for a large number of genes from an organism with no reference genome. With the rapidly increasing throughputs and decreasing costs of next generation sequencing, RNA-Seq has gained in popularity; but given the typically short reads (e.g. 2 x 90 bp paired ends) of this technol- ogy, de novo assembly to recover complete or full-length transcript sequences remains an algorithmic challenge. Results: We present SOAPdenovo-Trans, a de novo transcriptome assembler designed specifically for RNA-Seq. Its performance was evaluated on transcriptome datasets from rice and mouse. Using the known transcripts from these well-annotated genomes (sequenced a decade ago) as our benchmark, we assessed how SOAPdenovo- Trans and two other popular software handle the practical issues of alternative splicing and variable expression levels. Our conclusion is that SOAPdenovo-Trans provides higher contiguity, lower redundancy, and faster execution. Availability and Implementation: Source code and user manual are at http://sourceforge.net/projects/soapdenovotrans/ Contact: xieyl@genomics.cn or bgi-soap@googlegroups.com

研究动机与目标

  • 解决在无参考基因组的生物体中,从短 RNA-Seq 读段进行从头转录组组装的挑战。
  • 提高转录本重建的准确性和完整性,特别是全长转录本的重建。
  • 处理生物学复杂性,如选择性剪接和基因表达水平的差异。
  • 与现有工具相比,提升组装速度并减少冗余。
  • 为非模式生物提供可扩展、高效的转录组分析解决方案。

提出的方法

  • 通过整合配对末端读段信息和转录本水平的连接性,将 SOAPdenovo de Bruijn 图组装器适配用于转录本特异性组装。
  • 实施两步流程:首先,从短读段构建 de Bruijn 图;其次,利用配对末端约束解析剪接连接点和异构体。
  • 采用转录本特异性支架构建策略,优先考虑高置信度剪接模式和表达感知的路径选择。
  • 采用基于 k-mer 的方法,并优化 k-mer 尺寸选择,以在转录本重建中平衡敏感性与特异性。
  • 引入表达水平估计值以指导路径选择,减少嵌合组装。
  • 集成组装后过滤步骤,以去除冗余和低覆盖度的转录本。

实验结果

研究问题

  • RQ1从头转录组组装工具能否有效从短配对末端 RNA-Seq 读段重建全长转录本?
  • RQ2与现有组装器相比,SOAPdenovo-Trans 在处理选择性剪接事件方面表现如何?
  • RQ3基因表达水平的可变性在多大程度上影响转录本组装的准确性?SOAPdenovo-Trans 如何缓解这一问题?
  • RQ4使用配对末端信息是否显著提升了组装的连续性并减少了冗余?
  • RQ5与其它领先组装器相比,SOAPdenovo-Trans 在运行时效率和内存使用方面表现如何?

主要发现

  • SOAPdenovo-Trans 在连续性方面优于其他组装器,在水稻和小鼠数据集中均恢复了更高比例的全长转录本。
  • 该工具表现出更低的冗余性,产生的嵌合转录本和部分转录本少于竞争工具。
  • 在重建复杂剪接模式方面表现更优,尤其在具有多个异构体的基因中表现突出。
  • 组装速度显著快于现有工具,且内存使用高效,适用于大规模转录组分析。
  • 该方法有效处理了表达水平的可变性,在低丰度基因中仍保持高准确性。
  • 与已知注释基因组中的参考转录本进行基准测试,证实其在从头重建中的鲁棒性和可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。