Skip to main content
QUICK REVIEW

[論文レビュー] Faster and More Accurate Sequence Alignment with SNAP

Matei Zaharia, William J. Bolosky|arXiv (Cornell University)|Nov 23, 2011
Genomics and Phylogenetic Studies参考文献 14被引用数 231
ひとこと要約

SNAPは、20 bp程度の長いシードを用いたハッシュベースのインデックス、最適化されたローカルアラインメント、メモリに配慮した pruning を採用することで、BWA などの最先端ツールと比較して10–100倍高速かつ高精度な新しいシーケンスアラインナーである。SNAPは、Amazon EC2 上で人間ゲノムの30倍のカバレッジを1時間未塔でアラインすることができ、コストは2ドルにとどまる。1つの連続したシードがリファレンスに一致する限り、任意の数のインデルや置換をサポートする。

ABSTRACT

We present the Scalable Nucleotide Alignment Program (SNAP), a new short and long read aligner that is both more accurate (i.e., aligns more reads with fewer errors) and 10-100x faster than state-of-the-art tools such as BWA. Unlike recent aligners based on the Burrows-Wheeler transform, SNAP uses a simple hash index of short seed sequences from the genome, similar to BLAST's. However, SNAP greatly reduces the number and cost of local alignment checks performed through several measures: it uses longer seeds to reduce the false positive locations considered, leverages larger memory capacities to speed index lookup, and excludes most candidate locations without fully computing their edit distance to the read. The result is an algorithm that scales well for reads from one hundred to thousands of bases long and provides a rich error model that can match classes of mutations (e.g., longer indels) that today's fast aligners ignore. We calculate that SNAP can align a dataset with 30x coverage of a human genome in less than an hour for a cost of $2 on Amazon EC2, with higher accuracy than BWA. Finally, we describe ongoing work to further improve SNAP.

研究の動機と目的

  • ハイブリッドシーケンシングの計算負荷が増大しており、これはムーアの法則を上回り、ストレージおよびコンピューティングシステムを圧迫するおそれがある。
  • 既存のアラインヤーでは、しばしば数個の置換やインデルに制限された誤差モデルにとどまり、速度と精度のトレードオフを克服する必要がある。
  • 最新のハードウェアとアルゴリズム最適化を活用して、100–10,000 bp の多様なリード長および誤差率に対応した効率的で正確なアラインメントを実現する。
  • リセクエンシングの大規模ゲノム(例:ヒトゲノム)の処理にかかる時間とコストを削減できる、スケーラブルでクラウド互換性のあるアラインヤーを開発する。

提案手法

  • リファレンスゲノムからの20-bpシード配列のハッシュインデックスを用いる。BLASTに類似しているが、誤検出を減らすためにより長いシードを採用する。
  • 長大なシードによる高い類似性を活用した高速な編集距離アルゴリズムを採用し、アラインメントコストをO(n²)未満に抑える。
  • 現在の最良のアラインメントよりも編集距離が大きい候補は早期に破棄することで、ローカルアラインメントにおける早期終了を実現し、完全な計算を回避する。
  • 大容量メモリを活用してより多くのシード配列を格納することで、ハッシュ照会のオーバーヘッドを低減する。
  • 完全な編集距離計算を実行しないまま、シード数のヒューリスティクスを用いて低品質の候補アラインメントを除外する。
  • 少なくとも1つの連続した20-bpシードがリファレンスに一致する限り、任意の数の置換、挿入、削除をサポートする。

実験結果

リサーチクエスチョン

  • RQ1長大なリードと最新のメモリを活用することで、BWTベースのツール(例:BWA)を上回る速度と精度を達成できるハッシュベースのアラインヤーは実現可能か?
  • RQ2約20 bpの長いシード長は、短いシード(例:10–12 bp)と比較して、誤検出アラインメントをどの程度低減できるか?
  • RQ3編集距離の境界を用いた候補アラインメントの早期拒否は、計算コストをどの程度削減できるか?
  • RQ4メモリ集約的なインデキシング戦略は、最新のハードウェア上でハッシュ照会回数を顕著に減らし、パフォーマンスを向上させられるか?
  • RQ5WHAM や BWA-SW と比較して、SNAP は複数のエラーおよびインデルを持つリードをどの程度効果的に処理できるか?

主な発見

  • SNAPは、2%のエラー率を示す70 bpリードの86.7%をアラインし、速度が低下するWHAM(60%)を上回り、1秒間に52,000リードを処理できる。
  • SNAPはBWAや他の最先端ツールと比較して10–100倍の高速化を達成しながらも、特に複雑な突然変異においても高い精度を維持する。
  • SNAPは、Amazon EC2 上で人間ゲノムの30倍のカバレッジを1時間未塔でアラインでき、コストはわずか2ドルである。
  • 1つの連続した20-bpシードがリファレンスに一致する限り、任意の数の置換およびインデルをサポートする。
  • SNAPは、より長いシードと最適化されたローカルアラインメントを採用することで、ナイーブなアプローチと比較して、完全な編集距離計算の回数を最大50倍まで削減できる。
  • SNAPのパフォーマンスは、100から10,000 bpのリード長にわたり良好にスケーリングされ、現在および将来のシーケンシング技術に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。