Skip to main content
QUICK REVIEW

[논문 리뷰] Decomposing the site frequency spectrum: the impact of tree topology on neutrality tests

Luca Ferretti, Alice Ledda|arXiv (Cornell University)|2015. 10. 22.
Genetic diversity and population structure참고 문헌 38인용 수 39
한 줄 요약

이 논문은 공생 대기 시간과 나무 구조를 기반으로 사이트 빈도 스펙트럼(SFS)을 분해하여, 중립성 검정인 타지마의 D와 페이 & 후의 H가 나무 균형, 특히 루트 균형에 직접적으로 영향을 받음을 보여준다. 새로운 검정 L을 제안하고, 이러한 검정의 극한 기대값을 유도하며, 표본 크기와 SNP 수에 대한 의존성을 제거하는 정규화를 제안하여 다양한 인구 간 비교가 더 가능하도록 한다.

ABSTRACT

We investigate the dependence of the site frequency spectrum (SFS) on the topological structure of genealogical trees. We show that basic population genetic statistics - for instance estimators of $\ heta$ or neutrality tests such as Tajima's $D$ - can be decomposed into components of waiting times between coalescent events and of tree topology. Our results clarify the relative impact of the two components on these statistics. We provide a rigorous interpretation of positive or negative values of an important class of neutrality tests in terms of the underlying tree shape. In particular, we show that values of Tajima's $D$ and Fay and Wu's $H$ depend in a direct way on a peculiar measure of tree balance which is mostly determined by the root balance of the tree. We present a new test for selection in the same class as Fay and Wu's $H$ and discuss its interpretation and power. Finally, we determine the trees corresponding to extreme expected values of these neutrality tests and present formulae for these extreme values as a function of sample size and number of segregating sites.

연구 동기 및 목표

  • 공생 대기 시간과 나무 구조의 기여를 사이트 빈도 스펙트럼(SFS)에서 분석적으로 분리하는 것.
  • 나무 형태—특히 루트 균형—이 타지마의 D와 페이 & 후의 H와 같은 일반 중립성 검정에 어떻게 영향을 미치는지 명확히 하는 것.
  • 페이 & 후의 H와 같은 클래스에 속하는 새로운 중립성 검정(L)을 개발하여 더 명확한 해석 가능성을 확보하는 것.
  • 중립성 검정의 기대값이 최대 또는 최소가 되는 유전적 계통수를 도출하는 것.
  • 표본 크기와 다형성 사이트 수에 대한 의존성을 제거하여 다양한 표본 간 비교가 가능한 중립성 검정 통계량의 정규화를 제안하는 것.

제안 방법

  • 공생 이론에 기반한 수학적 프레임워크를 사용하여 SFS를 공생 대기 시간과 나무 구조에 의존하는 성분으로 분해하는 것.
  • 인구 유전학에 특화된 나무 비균형 측정법을 제안하며, SFS의 비대칭성에 영향을 미치는 주요 요인으로 루트 균형을 강조하는 것.
  • 나이비티 테스트(D, H, L 등)의 기대값을 나무 구조와 대기 시간의 함수로 명시적인 공식으로 도출하는 것.
  • 중립성 검정의 기대값이 최대 또는 최소가 되는 극단적 나무—최대한 균형 잡힌 나무와 최대한 비균형 잡힌 나무—를 식별하는 것.
  • 테스트 통계량을 이론적 극한값으로 정규화하여 서로 다른 n과 S를 가진 표본 간 비교가 가능하도록 하는 것.
  • 표본 크기 n의 정수 분할에 대한 최적화를 통해 테스트 통계량을 극대화 또는 극소화하는 나무 형태(k-분할 패턴)를 찾는 것.

실험 결과

연구 질문

  • RQ1나무 구조, 특히 루트 균형은 타지마의 D와 페이 & 후의 H와 같은 중립성 검정의 기대값에 어떻게 영향을 미치는가?
  • RQ2사이트 빈도 스펙트럼은 대기 시간과 나무 형태 성분으로 어떻게 수학적으로 분해될 수 있는가?
  • RQ3어떤 계통수 형태가 중립성 검정의 최대 및 최소 기대값을 갖는가?
  • RQ4나무 형태 측면에서 더 직접적으로 해석 가능한 새로운 중립성 검정을 구성할 수 있는가?
  • RQ5표본 크기와 다형성 사이트 수에 대한 의존성을 제거하여 인구 간 비교가 가능한 중립성 검정 통계량의 정규화 방법은 무엇인가?

주요 결과

  • 타지마의 D와 페이 & 후의 H는 나무 균형 측정치에 의해 직접적으로 결정되며, 특히 루트 균형이 그 값에 지배적인 영향을 미친다.
  • 중립성 검정의 극한 기대값은 최대한 균형 잡힌 또는 최대한 비균형 잡힌 나무 구조에서 발생하며, 표본 크기 n과 다형성 사이트 수 S의 함수로 명시적인 공식이 도출되었다.
  • 새로운 검정 L은 페이 & 후의 H와 같은 클래스의 선택 검정으로 제안되었으며, 나무 형태에 대한 명확한 해석과 잘 정의된 기대값 범위를 가진다.
  • 테스트 통계량을 이론적 극한값으로 정규화함으로써 n과 S에 대한 의존성이 제거되어 다양한 표본 간 테스트 값 비교가 가능해진다.
  • 정규화된 테스트 통계량은 약 -1에서 1 사이의 범위를 가지며, ±1에 가까운 값은 극한 형태에 가까운 나무를 의미한다.
  • 1000 Genomes 데이터의 실증 분석 결과, 원본 값보다 정규화된 값이 인구 간에 더 비교 가능하게 나타났지만, 여전히 표본 크기 n과 S에 조건부로 신뢰구간을 계산해야 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.