QUICK REVIEW

[논문 리뷰] Faster and More Accurate Sequence Alignment with SNAP

Matei Zaharia, William J. Bolosky|arXiv (Cornell University)|2011. 11. 23.

Genomics and Phylogenetic Studies참고 문헌 14인용 수 231

한 줄 요약

SNAP는 긴 시드(약 20bp)를 사용하는 해시 기반 색인, 최적화된 국소 정렬, 메모리 인식 프루닝을 통해 BWA와 같은 최신 도구보다 10–100배 빠른 성능과 높은 정확도를 달성하는 새로운 시퀀스 어 liner입니다. AWS EC2에서 인간 게놈의 30× 커버리지 정렬을 1시간 이내로 수행하며 비용은 2달러이며, 연속된 하나의 시드가 참조에 매칭되는 한 임의의 인ser션, 딜리션, 교체를 지원합니다.

ABSTRACT

We present the Scalable Nucleotide Alignment Program (SNAP), a new short and long read aligner that is both more accurate (i.e., aligns more reads with fewer errors) and 10-100x faster than state-of-the-art tools such as BWA. Unlike recent aligners based on the Burrows-Wheeler transform, SNAP uses a simple hash index of short seed sequences from the genome, similar to BLAST's. However, SNAP greatly reduces the number and cost of local alignment checks performed through several measures: it uses longer seeds to reduce the false positive locations considered, leverages larger memory capacities to speed index lookup, and excludes most candidate locations without fully computing their edit distance to the read. The result is an algorithm that scales well for reads from one hundred to thousands of bases long and provides a rich error model that can match classes of mutations (e.g., longer indels) that today's fast aligners ignore. We calculate that SNAP can align a dataset with 30x coverage of a human genome in less than an hour for a cost of $2 on Amazon EC2, with higher accuracy than BWA. Finally, we describe ongoing work to further improve SNAP.

연구 동기 및 목표

모어의 법칙을 초월하는 고속도 시퀀싱의 증가하는 계산 부담을 해결하기 위해, 특히 저장소 및 컴퓨팅 시스템에 과부하를 가할 수 있는 고속도 단일 및 장단편 시퀀싱을 대비합니다.
기존 어 라이저에서 속도와 정확도의 상충 관계를 해결하여, 일반적으로 몇 가지 교체 또는 삽입/삭제만 허용하는 오류 모델 제한을 극복합니다.
현대 하드웨어와 알고리즘 최적화를 활용해 다양한 리드 길이(100–10,000bp)와 오류율에서도 효율적이고 정확한 정렬을 가능하게 합니다.
재시퀀싱을 위한 대규모 게놈(예: 인간 게놈) 정렬의 시간과 비용을 줄일 수 있는 확장 가능하고 클라우드 호환성 있는 어 라이저를 개발합니다.

제안 방법

참조 게놈의 20bp 시드 시퀀스 해시 인덱스를 사용하며, BLAST와 유사하지만 더 긴 시드로 거짓 양성률을 감소시킵니다.
긴 시드로 인해 높은 유사도를 확보하여, 편집 거리 알고리즘을 빠르게 적용해 정렬 비용을 O(n²) 이하로 낮춥니다.
기존 최고 성능보다 높은 편집 거리인 후보를 조기에 거부함으로써 국소 정렬에서의 조기 종료를 적용해 전체 계산을 피합니다.
큰 메모리 용량을 활용해 더 많은 시드 시퀀스를 저장함으로써 해시 조회 오버헤드를 줄입니다.
완전한 편집 거리 계산 없이도 시드 수 히وري스틱을 사용해 저품질 후보 정렬을 제외합니다.
최소한 하나의 연속된 20bp 시드가 참조에 매칭되는 한, 임의의 수의 교체, 삽입, 삭제를 지원합니다.

실험 결과

연구 질문

RQ1더 긴 리드와 현대 메모리 자원을 활용함으로써, 해시 기반 어 라이저가 BWT 기반 도구인 BWA보다 속도와 정확도 면에서 뛰어나게 할 수 있는가?
RQ2약 20bp의 더 긴 시드 길이가 짧은 시드(예: 10–12bp)에 비해 거짓 양성 정렬을 얼마나 줄일 수 있는가?
RQ3편집 거리의 하한을 이용한 후보 정렬의 조기 거부 전략이 계산 비용을 얼마나 효과적으로 줄이는가?
RQ4메모리 집약적인 색인 전략이 현대 하드웨어에서 해시 조회 수를 크게 줄이고 성능 향상에 기여할 수 있는가?
RQ5SNAP의 성능와 정확도는 다수의 오류와 삽입/삭제를 포함한 리드를 처리할 때 WHAM과 BWA-SW에 비해 어떻게 비교되는가?

주요 결과

SNAP는 2% 오류율을 가진 70bp 리드의 86.7%를 정렬하며, 속도가 감소한 WHAM(60%)을 능가하고, 52,000개 리드/초의 속도를 달성합니다.
SNAP는 BWA 및 기타 최신 도구보다 10–100배 빠른 성능을 기록하면서도 더 높은 정확도를 유지하며, 특히 복잡한 돌연변이에 뛰어난 성능을 보입니다.
SNAP는 AWS EC2에서 인간 게놈의 30× 커버리지 정렬을 1시간 이내로 수행하며 비용은 단 2달러입니다.
알고리즘은 하나의 연속된 20bp 시드가 참조에 매칭되는 한, 임의의 수의 교체 및 삽입/삭제를 지원합니다.
더 긴 시드와 최적화된 국소 정렬을 통해, 난이도 높은 접근 방식 대비 전체 편집 거리 계산 횟수를 최대 50배까지 줄일 수 있습니다.
SNAP의 성능는 100bp에서 10,000bp까지의 다양한 리드 길이에서 잘 유지되어 현재와 향후 시퀀싱 기술 모두에 적합합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.