QUICK REVIEW
[논문 리뷰] Haplotype-based variant detection from short-read sequencing
Erik Garrison, Gábor Marth|arXiv (Cornell University)|2012. 07. 17.
Gene expression and cancer classification참고 문헌 23인용 수 4,047
한 줄 요약
이 논문은 짧은 읽기 시퀀싱에서 해플로타입(haplotypes)을 탐지하기 위한 베이지안 프레임워크를 개발하고 이를 FreeBayes에 구현하여 다대대립 좌위와 비균일한 카피 수를 처리한다.
ABSTRACT
The direct detection of haplotypes from short-read DNA sequencing data requires changes to existing small-variant detection methods. Here, we develop a Bayesian statistical framework which is capable of modeling multiallelic loci in sets of individuals with non-uniform copy number. We then describe our implementation of this framework in a haplotype-based variant detector, FreeBayes.
연구 동기 및 목표
- 시퀀싱 트레이스로부터의 짧은 범위 페이징 정보를 활용하기 위한 해플로타입 기반 변이 탐지의 동기를 제시한다.
- 샘플 간에 다대대립 좌위와 비균일한 카피 수에 대해 변이 탐지를 일반화한다.
- 데이터 우도와 사전 정보를 포함하는 P(G1,...,Gn|R1,...,Rn)를 계산하기 위한 베이지안 모델을 개발한다.
- 해플로타입 기반 검출기(FreeBayes)를 구현하고 사후 품질 지표를 제공한다.
- 로컬 임퓨테이션 개념을 통해 더 긴 해플로타입의 직접 탐지와 유전형 결정 정확도 향상을 가능하게 한다.
제안 방법
- 좌위에서 카피 수가 mi인 n개의 샘플과 총 카피 수 M, 그리고 K개의 대립유전자(대립형질)로 각 대립유전자 주파수가 fi인 것을 정의한다.
- 데이터 우도 P(Ri|Gi)와 Ewens’ 샘플링 공식에 기초한 개체군 대립유전자 주파수에 기반한 사전 분포를 사용하여 베이즈 규칙을 P(G1,...,Gn|R1,...,Rn)로 확장한다.
- 읽이에서 관찰된 대립유전자를 고려하여 다항분포 표본추출(다항 샘플링)을 기반으로 P(Ri|Gi)를 계산하고, 염기 품질 및 매핑 품질에 맞춰 보정한다.
- 사전분포를 P(G1,...,Gn|f1,...,fk)와 P(f1,...,fk)로 분해하고, 비위상화된 유전자형에 맞춰 보정하며 대립유전자 주파수와 함께 다항 계수를 사용하는 방식으로 구성한다.
- 매개변수 θ를 가진 중립적 돌연변이-확률 모형하에서 P(f1,...,fk)을 근사하기 위해 Ewens’ Sampling Formula를 적용한다.
- 참조 서열에 의해 고정된 동적으로 결정되는 창(window) 내에서 해플로타입 관찰치를 구성하고, 최대 사후확률 해를 향한 기울기 상승법으로 P(G1,...,Gn|R1,...,Rn)을 계산한다.
- 출력에는 좌위 다형성 확률 P(K>1|R1,...,Rn)와 개별에 대한 주변 유전자형 우도 P(Gj|Ri,...,Rn)을 포함한다.
실험 결과
연구 질문
- RQ1다대대립 좌위와 비균일한 카피 수를 베이지안 해플로타입 프레임워크 내에서 변이 탐지를 위해 모델링할 수 있는가?
- RQ2개체군 수준의 사전 분포와 페이징 정보를 통합하는 것이 짧은 읽이로부터의 해플로타입 기반 변이 탐지를 향상시키는가?
- RQ3로컬 해플로타입 관찰치를 조립함으로써 짧은 읽이 데이터로부터 더 긴 해플로타입을 직접 탐지할 수 있는가?
- RQ4염기 품질 및 매핑 품질을 사용하여 시퀀싱 오차로부터 실제 해플로타입을 구별하는 데 이 방법이 얼마나 효과적인가?
- RQ5이 방법이 생성하는 품질 출력물(다형성 확률과 주변 유전자형 우도)은 무엇인가?
주요 결과
- 다대대립 좌위와 비균일한 카피 수를 해플로타입 기반 변이 탐지를 위해 모델링하는 베이지안 프레임워크가 개발되었다.
- 이 접근법은 비위상화된 유전자형을 다루도록 사전 및 우도 계산을 일반화하고, 대립유전자 주파수 사전 추정에 Ewens’ sampling formula를 사용한다.
- 해플로타입 탐지기(FreeBayes)가 동적으로 결정되는 윈도우에 해플로타입 관찰치를 구성하고 최대 사후 확률(multisample genotype)을 찾기 위해 기울기 상승을 사용한다.
- 이 방법은 좌위의 다형성 확률 P(K>1|R1,...,Rn)을 산출하고 개인별 주변 유전자형 우도도 제공한다.
- 로컬 임퓨테이션 유사 보정(refinement)을 도입하면 순수한 최대우도 접근법보다 원시 유전자형 품질이 향상된다.
- 단일한 베이지안 맥락에서 다대대립 해플로타입을 모델링하여 짧은 읽이 시퀀싱 데이터에서 더 긴 해플로타입을 직접 탐지할 수 있도록 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.