QUICK REVIEW

[論文レビュー] A Reference-Free Algorithm for Computational Normalization of Shotgun Sequencing Data

C. Titus Brown, Adina Howe|arXiv (Cornell University)|Mar 21, 2012

Genomics and Phylogenetic Studies参考文献 36被引用数 240

ひとこと要約

この論文では、リファレンスフリーで1回スキャンのアルゴリズムであるデジタル正規化を紹介する。この手法は、重複した高カバレッジのリードとエラーを削除することで、デノボアセンブリに必要なメモリと時間の要件を低下させ、コンティグの内容を損なわずにシーケンシングデータのサイズを縮小する。この手法は、最大90％のデータ削減を達成し、固定メモリでのk-merカウントを用いて、微生物、単細胞、トランスクリプトームのデータセットにおいて、アセンブリの効率を著しく向上させる。

ABSTRACT

Deep shotgun sequencing and analysis of genomes, transcriptomes, amplified single-cell genomes, and metagenomes has enabled investigation of a wide range of organisms and ecosystems. However, sampling variation in short-read data sets and high sequencing error rates of modern sequencers present many new computational challenges in data interpretation. These challenges have led to the development of new classes of mapping tools and {\em de novo} assemblers. These algorithms are challenged by the continued improvement in sequencing throughput. We here describe digital normalization, a single-pass computational algorithm that systematizes coverage in shotgun sequencing data sets, thereby decreasing sampling variation, discarding redundant data, and removing the majority of errors. Digital normalization substantially reduces the size of shotgun data sets and decreases the memory and time requirements for {\em de novo} sequence assembly, all without significantly impacting content of the generated contigs. We apply digital normalization to the assembly of microbial genomic data, amplified single-cell genomic data, and transcriptomic data. Our implementation is freely available for use and modification.

研究の動機と目的

微生物、単細胞、トランスクリプトーム由来の大型でエラーを含むショットガンシーケンシングデータセットを分析する計算上の課題に対処すること。
リファレンスゲノムを必要とせずに、デノボアセンブリにおけるデータサイズと計算負荷を低減すること。
1回スキャンの正規化プロセスを通じて、高カバレッジのデータセットにおけるサンプリングのばらつきとシーケンシングエラーを最小限に抑えること。
メタゲノムや単細胞ゲノムのような複雑でアッブンダンスが偏ったデータセットの効率的アセンブリを可能にすること。
生物学的コンテンツを保持しながら、重複したリードと誤ったリードを破棄する固定メモリアルゴリズムの開発

提案手法

デジタル正規化は、固定メモリで1回スキャンする原始リード内のk-merを数えるためにCountMin Sketchデータ構造を用いる。
高k-merカバレッジを持つリードを段階的に削除することで、平均カバレッジをユーザーが定義したしきい値に正規化する。
アルゴリズムはリファレンス配列を必要とせず、k-mer頻度にのみ依存して重複および誤りを含むリードを同定・破棄する。
実験的正規化の原則を応用するが、シーケンシング後に計算的に適用することでデータ量を削減する。
正規化後でも、正規化されていないリードに保持されたアッブンダンス情報を維持し、生物学的信号の回復を可能にする。
実装はC++を用いてパフォーマンスを最適化し、スクリプトにはPythonを用いたkhmerソフトウェアパッケージに統合されている。

実験結果

リサーチクエスチョン

RQ1リファレンスが事前に不明な状態で、リファレンスフリーで1回スキャンのアルゴリズムが、ショットガンシーケンシングデータのサイズとエラー含有量を効果的に低減できるか。
RQ2デジタル正規化は、多様なシーケンシングデータセットにおいて、デノボアセンブリに必要なメモリと実行時間の要件をどの程度低減するか。
RQ3正規化データから得られるアセンブリは、非正規化データからのアセンブリと比べて、生物学的コンテンツをどの程度正確に保持しているか。
RQ4メタゲノムのような複雑な混合物において、デジタル正規化は希少または低アッブンダンスの配列を再構築する能力を維持しているか。
RQ5正規化アセンブリにおいて、データ削減と配列の新規性の保持の最適なバランスは何か。

主な発見

デジタル正規化は、E. coli、S. aureus、Deltaproteobacteria、イースト、マウスmRNAseqのデータセットにおいて、最大90％のデータサイズ削減を達成した。
デノボアセンブリにおけるピークメモリ使用量と実行時間を最大80％まで低減し、コンティグの内容に顕著な損失は認めなかった。
BLASTNアラインメントによる測定では、正規化データからのアセンブリと非正規化データからのアセンブリとの間で95–99％のオーバーラップが達成された。
中央値k-merカウントとマッピングカバレッジの間に高い相関（R² > 0.9）を維持しており、配列アッブンダンスの正確な表現が示された。
E. coliの例では、正規化データではk-mer長37で正常なアセンブリが達成されたが、非正規化データではk-mer長45が必要であった。これは、効率の向上を示している。
単細胞増幅ゲノムおよびトランスクリプトームに対しても有効であり、計算コストを低減しながら主要な生物学的特徴を保持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。