QUICK REVIEW

[논문 리뷰] Decomposing the site frequency spectrum: the impact of tree topology on neutrality tests

Luca Ferretti, Alice Ledda|arXiv (Cornell University)|2015. 10. 22.

Genetic diversity and population structure참고 문헌 38인용 수 39

한 줄 요약

이 논문은 공생 대기 시간과 나무 구조를 기반으로 사이트 빈도 스펙트럼(SFS)을 분해하여, 중립성 검정인 타지마의 D와 페이 & 후의 H가 나무 균형, 특히 루트 균형에 직접적으로 영향을 받음을 보여준다. 새로운 검정 L을 제안하고, 이러한 검정의 극한 기대값을 유도하며, 표본 크기와 SNP 수에 대한 의존성을 제거하는 정규화를 제안하여 다양한 인구 간 비교가 더 가능하도록 한다.

ABSTRACT

We investigate the dependence of the site frequency spectrum (SFS) on the topological structure of genealogical trees. We show that basic population genetic statistics - for instance estimators of $\ heta$ or neutrality tests such as Tajima's $D$ - can be decomposed into components of waiting times between coalescent events and of tree topology. Our results clarify the relative impact of the two components on these statistics. We provide a rigorous interpretation of positive or negative values of an important class of neutrality tests in terms of the underlying tree shape. In particular, we show that values of Tajima's $D$ and Fay and Wu's $H$ depend in a direct way on a peculiar measure of tree balance which is mostly determined by the root balance of the tree. We present a new test for selection in the same class as Fay and Wu's $H$ and discuss its interpretation and power. Finally, we determine the trees corresponding to extreme expected values of these neutrality tests and present formulae for these extreme values as a function of sample size and number of segregating sites.

연구 동기 및 목표

공생 대기 시간과 나무 구조의 기여를 사이트 빈도 스펙트럼(SFS)에서 분석적으로 분리하는 것.
나무 형태—특히 루트 균형—이 타지마의 D와 페이 & 후의 H와 같은 일반 중립성 검정에 어떻게 영향을 미치는지 명확히 하는 것.
페이 & 후의 H와 같은 클래스에 속하는 새로운 중립성 검정(L)을 개발하여 더 명확한 해석 가능성을 확보하는 것.
중립성 검정의 기대값이 최대 또는 최소가 되는 유전적 계통수를 도출하는 것.
표본 크기와 다형성 사이트 수에 대한 의존성을 제거하여 다양한 표본 간 비교가 가능한 중립성 검정 통계량의 정규화를 제안하는 것.

제안 방법

공생 이론에 기반한 수학적 프레임워크를 사용하여 SFS를 공생 대기 시간과 나무 구조에 의존하는 성분으로 분해하는 것.
인구 유전학에 특화된 나무 비균형 측정법을 제안하며, SFS의 비대칭성에 영향을 미치는 주요 요인으로 루트 균형을 강조하는 것.
나이비티 테스트(D, H, L 등)의 기대값을 나무 구조와 대기 시간의 함수로 명시적인 공식으로 도출하는 것.
중립성 검정의 기대값이 최대 또는 최소가 되는 극단적 나무—최대한 균형 잡힌 나무와 최대한 비균형 잡힌 나무—를 식별하는 것.
테스트 통계량을 이론적 극한값으로 정규화하여 서로 다른 n과 S를 가진 표본 간 비교가 가능하도록 하는 것.
표본 크기 n의 정수 분할에 대한 최적화를 통해 테스트 통계량을 극대화 또는 극소화하는 나무 형태(k-분할 패턴)를 찾는 것.

실험 결과

연구 질문

RQ1나무 구조, 특히 루트 균형은 타지마의 D와 페이 & 후의 H와 같은 중립성 검정의 기대값에 어떻게 영향을 미치는가?
RQ2사이트 빈도 스펙트럼은 대기 시간과 나무 형태 성분으로 어떻게 수학적으로 분해될 수 있는가?
RQ3어떤 계통수 형태가 중립성 검정의 최대 및 최소 기대값을 갖는가?
RQ4나무 형태 측면에서 더 직접적으로 해석 가능한 새로운 중립성 검정을 구성할 수 있는가?
RQ5표본 크기와 다형성 사이트 수에 대한 의존성을 제거하여 인구 간 비교가 가능한 중립성 검정 통계량의 정규화 방법은 무엇인가?

주요 결과

타지마의 D와 페이 & 후의 H는 나무 균형 측정치에 의해 직접적으로 결정되며, 특히 루트 균형이 그 값에 지배적인 영향을 미친다.
중립성 검정의 극한 기대값은 최대한 균형 잡힌 또는 최대한 비균형 잡힌 나무 구조에서 발생하며, 표본 크기 n과 다형성 사이트 수 S의 함수로 명시적인 공식이 도출되었다.
새로운 검정 L은 페이 & 후의 H와 같은 클래스의 선택 검정으로 제안되었으며, 나무 형태에 대한 명확한 해석과 잘 정의된 기대값 범위를 가진다.
테스트 통계량을 이론적 극한값으로 정규화함으로써 n과 S에 대한 의존성이 제거되어 다양한 표본 간 테스트 값 비교가 가능해진다.
정규화된 테스트 통계량은 약 -1에서 1 사이의 범위를 가지며, ±1에 가까운 값은 극한 형태에 가까운 나무를 의미한다.
1000 Genomes 데이터의 실증 분석 결과, 원본 값보다 정규화된 값이 인구 간에 더 비교 가능하게 나타났지만, 여전히 표본 크기 n과 S에 조건부로 신뢰구간을 계산해야 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.