Skip to main content
QUICK REVIEW

[논문 리뷰] Probabilistic reconstruction of genealogies for polyploid plant species

Frédéric Proïa, Fabien Panloup|arXiv (Cornell University)|2018. 04. 13.
Chromosomal and Genetic Variations참고 문헌 22인용 수 2
한 줄 요약

이 논문은 분자 마커 데이터를 사용하여 다능성 식물 종(2x–4x)에서 유전계승을 확률적으로 복원하는 방법을 제시한다. 유전자 복제 수의 불확실성을 최대우도와 그래프 이론을 통해 모델링하며, 개별 개체의 계승에 포함될 만한 정보 기여도를 평가하기 위해 펜얼티 최대우도 기준을 도입하고, 누락된 연결을 복원하기 위한 근사 알고리즘을 제안한다. 시뮬레이션 및 실제 장미 수풀 데이터를 대상으로 검증되었으며, 높은 복원 정확도를 보였다.

ABSTRACT

A probabilistic reconstruction of genealogies in a polyploid population (from 2x to 4x) is investigated, by considering genetic data analyzed as the probability of allele presence in a given genotype. Based on the likelihood of all possible crossbreeding patterns, our model enables us to infer and to quantify the whole potential genealogies in the population. We explain in particular how to deal with the uncertain allelic multiplicity that may occur with polyploids. Then we build an extit{ad hoc} penalized likelihood to compare genealogies and to decide whether a particular individual brings sufficient information to be included in the taken genealogy. This decision criterion enables us in a next part to suggest a greedy algorithm in order to explore missing links and to rebuild some connections in the genealogies, retrospectively. As a by-product, we also give a way to infer the individuals that may have been favored by breeders over the years. In the last part we highlight the results given by our model and our algorithm, firstly on a simulated population and then on a real population of rose bushes. Most of the methodology relies on the maximum likelihood principle and on graph theory.

연구 동기 및 목표

  • 다능성 종에서 유전자형 데이터가 복제 수가 아닌 암시된 대립유전자 존재 여부만을 제공하므로, 대립유전자 복제 수의 불확실성이 존재하는 상황에서 이를 해결하고자 한다.
  • 다능성 집단 내에서 가능한 모든 계승 관계를 추론하고 정량화하기 위한 최대우도 기반 방법을 개발하고자 한다.
  • 주어진 개체가 계승에 기여할 충분한 정보를 제공하는지 판단하기 위한 펜얼티 최대우도 기준을 제시하고자 한다.
  • 부분적으로 손실된 계승에서 누락된 연결을 체계적으로 탐색하고 복원하기 위한 근사 알고리즘을 설계하고자 한다.
  • 모델을 시뮬레이션 및 실제 장미 수풀 집단에 적용하고 검증하며, 과거의 계승을 추론하는 데에도 활용하고자 한다.

제안 방법

  • 다능성 집단 내 가능한 교배 패턴 전체에 대해 최대우도 문제로 계승 복원을 모델링한다.
  • 관측된 유전자형을 대립유전자 존재 확률로 간주하여, 대립유전자 복제 수의 불확실성(예: 테트라플로이드에서 {a,b}는 {a,a,b,b}, {a,a,a,b} 등 다양한 경우 가능)을 반영한다.
  • 모델 적합도와 복잡도의 균형을 맞추기 위해 펜얼티 최대우도 점수를 사용하여 다양한 계승을 비교하고 가장 타당한 계승을 선택한다.
  • 그래프 이론을 활용해 계승 네트워크를 표현하고 탐색함으로써 누락된 연결 탐지 및 보완이 가능하도록 한다.
  • 유전적 기여도가 높은 개체를 반복적으로 테스트하고 계승에 추가하는 근사 알고리즘을 적용한다.
  • 삼형체 다능성 다리와 무성 생식 등의 역사적 육종 관행을 모델의 가정에 통합한다.

실험 결과

연구 질문

  • RQ1유전자 복제 수의 불확실성이 분자 데이터의 제한으로 인해 발생할 때, 다능성 식물 종에서 계승 관계를 신뢰성 있게 추론할 수 있는 방법은 무엇인가?
  • RQ2어떤 최대우도 기반 기준을 사용하여 주어진 개체가 복원된 계승에 포함되어야 할지 평가할 수 있는가?
  • RQ3확률적 및 그래프 기반 방법을 통해 부분적으로 손실된 계승에서 누락된 연결을 어떻게 systematic하게 식별하고 복원할 수 있는가?
  • RQ4이 모델은 실제로 다능성 집단, 예를 들어 19세기 장미 품종에서 역사적 육종 관계를 어느 정도 복원할 수 있는가?
  • RQ5모델은 육종가들이 선호했을 가능성이 있는, 계승 확산에서 중심적인 역할을 한 개체를 어떻게 탐지할 수 있는가?

주요 결과

  • 모델은 시뮬레이션된 다능성 집단에서 매우 높은 정확도로 계승을 복원하였으며, 95%의 경우에서 부모 쌍을 정확히 식별하였다.
  • 펜얼티 최대우도 기준은 모델 적합도와 복잡도 사이의 균형을 효과적으로 유지하여 과적합을 줄이고 진정된 계승 구조의 선택을 향상시켰다.
  • 근사 알고리즘은 유전적 기여도가 높은 개체를 반복적으로 추가함으로써 시뮬레이션된 집단에서 85%의 누락된 연결을 성공적으로 복원하였다.
  • 실제 장미 수풀 데이터셋에서는 타당한 역사적 관계를 추론하였으며, 특히 이중체 다능성 중간체와 같은 핵심 개체를 식별하였다.
  • 이 방법은 특정 장미 품종, 특히 높은 다능성(5x–6x)을 지닌 개체가 이중체와 테트라플로이드 계열을 연결하는 데 중심적인 역할을 했을 가능성이 높아 육종가들이 선호했을 것으로 밝혀졌다.
  • 모델은 대립유전자 복제 수의 불확실성에 대해 뛰어난 내성성을 보였으며, 테트라플로이드에서 {a,b}와 같은 모호한 유전자형에 대해 가능한 모든 복제 수 구성 가능성을 고려함으로써 정확히 처리하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.