[논문 리뷰] SISRS: SNP Identification from Short Read Sequences
SISRS는 참조 게놈 없이 단일 시퀀싱 데이터에서 빠르게 계통발생적으로 유의미한 SNP를 식별하는 새로운 방법이다. 이는 *de novo* 어셈블리와 앨리어먼트 단계를 생략함으로써 이루어지며, 짧은 리드 시퀀싱 데이터에서 직접 분석함으로써 영장류와 유전자공통조상 박동류에서 정확한 계통수 재구성 가능하다. 수천 개의 변동성이 있는 서열을 활용하여 높은 효율성과 정확도를 입증하였다.
We have developed a novel method to rapidly obtain homologous genomic data for phylogenetics directly from next-generation sequencing reads without the use of a reference genome. This software, called SISRS, avoids the time consuming steps of de novo whole genome assembly, genome-genome alignment, and annotation. For simulations SISRS is able to identify large numbers of loci containing variable sites with phylogenetic signal. For genomic data from apes, SISRS identified thousands of variable sites, from which we produced an accurate phylogeny. Finally, we used SISRS to identify phylogenetic markers that we used to estimate the phylogeny of placental mammals. We recovered phylogenies from multiple datasets that were consistent with previous conflicting estimates of the relationships among mammals. SISRS is open source and freely available at this https URL.
연구 동기 및 목표
- 계통발생 분석을 위해 參照 게놈, *de novo* 어셈블리 및 게놈 앨리어먼트와 같은 시간 소모적인 단계를 생략하는 방법을 개발하기 위해.
- 차세대 시퀀싱 리드에서 직접 유사 유전자 위치를 식별하고, 계통발생적 신호를 가짐을 확인하기 위해.
- 특히 비모델 생물에서 참조 게놈 없이도 짧은 리드 데이터만으로 정확한 종 계통수 추정을 가능하게 하기 위해.
- 다양한 분류군에서 SNP 식별 및 계통수 재구성에 적용 가능한 확장성 있고 오픈소스 솔루션을 제공하기 위해.
제안 방법
- SISRS는 參照 게놈이 필요 없이 여러 개의 짧은 리드 데이터셋 간에 유사한 유전자 위치를 클러스터링 및 정렬하여 식별하는 參照 없는 접근법을 사용한다.
- k-mer 기반 전략을 적용하여 샘플 간에 공통된 게놈 영역을 탐지함으로써, *de novo* 어셈블리 없이도 유전자 위치를 식별할 수 있다.
- 정렬된 리드에서 변동성을 가진 서열을 추출하며, 이후 분석을 위해 계통발생적 신호를 가진 서열에 집중한다.
- 리드 클러스터링과 반복적 정렬을 활용하여 복잡하거나 다소 다를 수 있는 게놈 영역에서도 동일 유전자 위치를 식별한다.
- 식별된 SNP를 사용하여 표준 계통수 추정 방법을 통해 계통수를 구성한다.
실험 결과
연구 질문
- RQ1참조 게놈 없이도 짧은 리드 데이터에서 SNP 식별 및 계통수 재구성은 가능할 수 있는가?
- RQ2SISRS는 단지 시퀀싱 리드만으로도 알려진 영장류 계통관계를 얼마나 정확하게 복원할 수 있는가?
- RQ3SISRS는 *de novo* SNP 식별을 통해 오랫동안 갈등이 있었던 유전자공통조상 박동류 계통관계를 해결할 수 있는가?
- RQ4복잡한 게놈 데이터셋에서 SISRS는 참조 기반 접근법에 비해 효율성과 정확도 측면에서 어떻게 비교되는가?
주요 결과
- SISRS는 영장류 게놈 데이터에서 수천 개의 계통발생적 신호를 가진 변동성 서열을 성공적으로 식별하여 정확한 계통수 재구성에 기여하였다.
- 다양한 데이터셋에서 일관되고 정확한 계통수를 생성하여 이전에 모순되었던 유전자공통조상 박동류의 계통관계를 해결하였다.
- SISRS는 *de novo* 어셈블리 및 전장 게놈 정렬과 같은 계산적으로 고비용인 단계를 회피함으로써 높은 효율성을 입증하였다.
- 소프트웨어는 오픈소스이며 자유롭게 이용 가능하여 비모델 생물 및 參照 없는 계통발생학에 널리 적용 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.