Skip to main content
QUICK REVIEW

[論文レビュー] SOAPdenovo-Trans: De novo transcriptome assembly with short RNA-Seq reads

Yinlong Xie, Gengxiong Wu|arXiv (Cornell University)|May 29, 2013
Genomics and Phylogenetic Studies参考文献 16被引用数 72
ひとこと要約

SOAPdenovo-Trans は、短い RNA-Seq 読みを対象とした *de novo* トランスクリプトームアセンブラーであり、トランスクリプト特有の最適化を施した変更版 de Bruijn グラフ手法を採用することで、コンティグアリティの向上、リダンドンシーの低減、およびアセンブリの高速化を実現した。ライスおよびマウスのデータセットを用いた評価において、特に発現量の変動や代替スプライシングの条件下でも、既存のツールを上回るフルエクスプレッショントランスクリプトの再構築を達成した。

ABSTRACT

Motivation: Transcriptome sequencing has long been the favored method for quickly and inexpensively obtaining the sequences for a large number of genes from an organism with no reference genome. With the rapidly increasing throughputs and decreasing costs of next generation sequencing, RNA-Seq has gained in popularity; but given the typically short reads (e.g. 2 x 90 bp paired ends) of this technol- ogy, de novo assembly to recover complete or full-length transcript sequences remains an algorithmic challenge. Results: We present SOAPdenovo-Trans, a de novo transcriptome assembler designed specifically for RNA-Seq. Its performance was evaluated on transcriptome datasets from rice and mouse. Using the known transcripts from these well-annotated genomes (sequenced a decade ago) as our benchmark, we assessed how SOAPdenovo- Trans and two other popular software handle the practical issues of alternative splicing and variable expression levels. Our conclusion is that SOAPdenovo-Trans provides higher contiguity, lower redundancy, and faster execution. Availability and Implementation: Source code and user manual are at http://sourceforge.net/projects/soapdenovotrans/ Contact: xieyl@genomics.cn or bgi-soap@googlegroups.com

研究の動機と目的

  • リファレンスゲノムのない生物における短い RNA-Seq 読みからの *de novo* トランスクリプトームアセンブリの課題に対処すること。
  • 特にフルエクスプレッショントランスクリプトの再構築における正確性と完全性を向上させること。
  • 代替スプライシングや遺伝子発現量の変動といった生物学的複雑性を扱えること。
  • 既存のツールと比較して、アセンブリ速度の向上とリダンドンシーの低減を実現すること。
  • 非モデル生物におけるトランスクリプトーム解析にスケーラブルで効率的なソリューションを提供すること。

提案手法

  • ペアエンド読みの情報を統合し、トランスクリプトレベルの接続性を考慮することで、SOAPdenovo の de Bruijn グラフアセンブラーをトランスクリプトーム特有のアセンブリに適応させた。
  • 2段階のプロセスを実装:まず短い読みから de Bruijn グラフを構築し、次にペアエンド制約を用いてスプライシングジャンクションおよびアイソフォームを解消する。
  • 高信頼性のスプライシングパターンと発現に配慮したパス選択を優先するトランスクリプト特有のスcaffolding戦略を適用した。
  • 感度と特異性のバランスをとるために、最適化された k-mer サイズ選択を用いた k-mer ベースのアプローチを採用した。
  • パス選択をガイドし、キメラアセンブリの低減を図るために発現レベル推定値を統合した。
  • 冗長で低カバレッジのトランスクリプトを除去するためのアセンブリ後処理ステップを統合した。

実験結果

リサーチクエスチョン

  • RQ1短いペアエンド RNA-Seq 読みから *de novo* トランスクリプトームアセンブラが、フルエクスプレッショントランスクリプトを効果的に再構築できるか?
  • RQ2SOAPdenovo-Trans は、既存のアセンブラと比較して、代替スプライシングイベントの処理においてどのように性能を発揮するか?
  • RQ3遺伝子発現量の変動がトランスクリプトアセンブリの正確性に与える影響はどの程度であり、SOAPdenovo-Trans はその影響をどのように軽減するか?
  • RQ4ペアエンド情報の使用が、*de novo* アセンブリにおけるコンティグアリティの向上とリダンドンシーの低減に顕著な効果をもたらすか?
  • RQ5他の主要なアセンブラと比較して、SOAPdenovo-Trans の実行時間効率とメモリ使用量はどのようになるか?

主な発見

  • SOAPdenovo-Trans は、ライスおよびマウスの両データセットにおいて、他のアセンブラよりも高いコンティグアリティを達成し、フルエクスプレッショントランスクリプトの回収割合も高かった。
  • 他の競合ツールと比較して、リダンドンシーが低く、キメラ的および部分的トランスクリプトの生成が少ないことが示された。
  • 特に複数のアイソフォームを有する遺伝子において、複雑なスプライシングパターンの再構築において優れた性能を示した。
  • 既存のツールよりも著しく高速なアセンブリ速度を達成し、大規模なトランスクリプトームに適した効率的なメモリ使用量を実現した。
  • 発現量の変動を効果的に処理でき、低発現遺伝子に対しても高い正確性を維持した。
  • 良好にアノテーションが施されたゲノムからの既知のトランスクリプトを用いたベンチマークにより、*de novo* 再構築におけるその頑健さと信頼性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。