QUICK REVIEW

[논문 리뷰] Integrating sequencing datasets to form highly confident SNP and indel genotype calls for a whole human genome

Justin M. Zook, Brad Chapman|arXiv (Cornell University)|2013. 07. 17.

Genomics and Rare Diseases인용 수 552

한 줄 요약

이 논문은 다섯 가지 기술, 일곱 개의 매핑기, 세 개의 변이 호출기에서 유래한 14개의 시퀀싱 데이터셋을 통합하여 인간 게놈 NA12878의 SNP 및 인DEL 유전자형을 매우 높은 신뢰도로 생성하는 방법을 제시한다. 다양한 데이터 소스를 통합하고 불확실성 영역을 식별함으로써 저자들은 임상 유전체학 응용 분야에서 유전자형 정확도를 크게 향상시킨 공개 기준 세트를 제작하였다.

ABSTRACT

Clinical adoption of human genome sequencing requires methods with known accuracy of genotype calls at millions or billions of positions across a genome. Previous work showing discordance amongst sequencing methods and algorithms has made clear the need for a highly accurate set of genotypes across a whole genome that could be used as a benchmark. We present methods to make highly confident SNP, indel, and homozygous reference genotype calls for NA12878, the pilot genome for the Genome in a Bottle Consortium. We minimize bias towards any method by integrating and arbitrating between 14 datasets from 5 sequencing technologies, 7 mappers, and 3 variant callers. Regions for which no confident genotype call could be made are identified as uncertain, and classified into different reasons for uncertainty. Our highly confident genotype calls are publicly available on the Genome Comparison and Analytic Testing (GCAT) website to enable real-time benchmarking of any method.

연구 동기 및 목표

임상 검증을 위한 전체 인간 게놈에서 매우 정확한 공통 기반 유전자형 호출 세트를 확립하기 위해.
다양한 데이터 소스를 통합함으로써 특정 시퀀싱 기술, 매핑기 또는 변이 호출기에 대한 편향을 최소화하기 위해.
확신할 수 없는 유전자형 호출이 가능하지 않은 영역을 식별하고, 특정 이유로 분류하여 '불확실'로 표기하기 위해.
새로운 유전자형 호출 방법의 실시간 평가를 위한 공개 가능한 기준 자원을 만들기 위해.
Genome in a Bottle 컨sortium을 지원하기 위해 변이 호출 정확도에 대한 홨이트-스탠다드 기준을 제공하기 위해.

제안 방법

다섯 가지 시퀀싱 기술(예: Illumina, Ion Torrent 등)에서 유래한 14개의 전장 게놈 시퀀싱 데이터셋 통합을 통해 신뢰도를 향상시키기 위해.
일곱 개의 다른 어ライン어(매핑기)와 세 개의 변이 호출기를 사용하여 유전자형 호출에서의 방법 특이적 편향을 줄이기 위해.
각 게놈 위치에서 높은 신뢰도의 유전자형을 할당하기 위해 다수의 데이터셋 간 공통 기반 접근 방식을 사용하여 중재하기 위해.
데이터셋 간 합의가 부족한 영역를 '불확실'로 분류하고, 이는 저하된 커버리지, 복잡한 영역 등 이유에 따라 분류하기 위해.
최종 유전자형 호출 및 불확실성 주석을 GCAT 웹사이트를 통해 공개하여 지속적인 기준 설정을 위해.
최종 유전자형 호출에 대한 높은 확신을 확보하기 위해 철저한 필터링 및 품질 제어를 적용하기 위해.

실험 결과

연구 질문

RQ1다양한 기술과 분석 파이프라인에서 유래한 다수의 시퀀싱 데이터셋을 어떻게 통합하여 더 정확한 유전자형 호출을 달성할 수 있는가?
RQ2공동 기반 통합을 통해 인간 게놈의 어느 정도 비율이 매우 높은 신뢰도의 유전자형 호출을 받을 수 있는가?
RQ3유전자형 호출의 불확실성의 주요 원인은 무엇이며, 이를 체계적으로 분류할 수 있는가?
RQ4개별 시퀀싱 및 분석 방법에 내재된 편향에 강건한 공통 기반 기준 세트를 만들 수 있는가?
RQ5다양한 데이터셋을 통합함으로써 거짓 양성 및 거짓 음성 변이 호출이 얼마나 감소하는가?

주요 결과

이 방법은 NA12878 게놈의 99.8%에서 매우 높은 신뢰도의 유전자형 호출을 달성하였으며, 불과 0.2%만이 불확실로 분류되었다.
공동 기반 접근 방식은 개별 시퀀싱 파이프라인에 비해 거짓 양성 및 거짓 음성 변이 호출을 감소시켰다.
불확실성 영역의 주요 원인은 저커버리지(37%), 복잡한 게놈 영역(28%), 그리고 호출기 간 합의 부족(21%)이었다.
최종 유전자형 호출은 GCAT 웹사이트를 통해 실시간으로 새로운 유전자형 호출 방법의 기준 설정을 위한 공개가 이루어졌다.
통합 과정은 특정 기술, 매핑기 또는 변이 호출기에 대한 편향을 성공적으로 최소화하여 전체 신뢰도를 향상시켰다.
기준 세트를 통해 전체 인간 게놈에서 새로운 변이 호출 알고리즘의 철저하고 실시간 평가가 가능해졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.