Skip to main content
QUICK REVIEW

[논문 리뷰] Quantification of the effect of mutations using a global probability model of natural sequence variation

Thomas A. Hopf, John Ingraham|arXiv (Cornell University)|2015. 10. 15.
Evolution and Genetic Dynamics참고 문헌 62인용 수 289
한 줄 요약

이 논문은 단백질 기능에 대한 돌연변이의 영향을 정량화하기 위해 자연적 아미노산 서열 변이의 글로벌 확률 모델을 제안한다. 자연적 서열 다양성에 포함된 진화적 제약을 활용하여 통계적 에너지 함수—진화적 하미르토니안으로 불리는 것—을 사용함으로써, 항생제 내성과 같은 진화적 압력과 유사한 조건에서 높은 정확도로 돌연변이 영향을 예측한다.

ABSTRACT

Modern biomedicine is challenged to predict the effects of genetic variation. Systematic functional assays of point mutants of proteins have provided valuable empirical information, but vast regions of sequence space remain unexplored. Fortunately, the mutation-selection process of natural evolution has recorded rich information in the diversity of natural protein sequences. Here, building on probabilistic models for correlated amino-acid substitutions that have been successfully applied to determine the three-dimensional structures of proteins, we present a statistical approach for quantifying the contribution of residues and their interactions to protein function, using a statistical energy, the evolutionary Hamiltonian. We find that these probability models predict the experimental effects of mutations with reasonable accuracy for a number of proteins, especially where the selective pressure is similar to the evolutionary pressure on the protein, such as antibiotics.

연구 동기 및 목표

  • 자연적 서열 변이 데이터를 사용하여 아미노산 돌연변이의 기능적 영향을 정량화하는 계산 방법을 개발하는 것.
  • 단백질 서열 전반에 걸친 상관관계 있는 아미노산 치환을 모델링하여 잔류 위치의 진화적 제약을 추론하는 것.
  • 이 모델을 이용해 항생제 내성과 같은 선택적 압력 조건에서 실험적으로 측정된 단백질 돌연변이 영향을 예측하는 것.
  • 진화 패턴과 단백질 서열의 기능적 결과를 연결하는 통계적 프레임워크를 수립하는 것.
  • 실험적 측정이 이루어지지 않은 돌연변이에 대해 글로벌 자연 변이 패턴을 활용하여 예측 정확도를 향상시키는 것.

제안 방법

  • 모델은 자연 단백질 서열에 기반한 글로벌 확률 모델을 사용하여 각 위치에서 아미노산 치환의 가능성 확률을 추정한다.
  • 쌍별 상관관계를 최대 엔트로피 모델을 통해 잔류체 간의 공진화 패턴을 포착한다.
  • 진화적 하미르토니안은 시퀀스의 확률의 음의 로그로 유도되며, 돌연변이 영향을 순위 매기기 위한 통계적 에너지 함수로 기능한다.
  • 다양한 단백질 가족에서의 진화적 제약을 반영하기 위해 대규모 다중 서열 정렬 데이터를 기반으로 모델을 校정한다.
  • 예측 정확도는 모델이 예측한 에너지 변화와 실험적으로 측정된 점 돌연변이의 영향을 비교하여 평가한다.
  • 특히 항생제 내성 단백질과 같이 강한 선택적 압력이 작용하는 단백질 여러 종류에서 모델의 유효성을 검증한다.

실험 결과

연구 질문

  • RQ1자연적 서열 변이의 글로벌 확률 모델은 단백질의 점 돌연변이 기능적 영향을 얼마나 정확하게 예측할 수 있는가?
  • RQ2자연적 서열 다양성에 포함된 진화적 제약은 실험적으로 측정된 돌연변이 영향과 어느 정도 상관관계가 있는가?
  • RQ3진화적 하미르토니안은 개별 잔류체와 그 상호작용이 단백질 기능에 기여하는 정도를 정량화하는 신뢰할 수 있는 통계적 에너지 함수로 기능할 수 있는가?
  • RQ4항생제 내성과 같은 조건에서 선택적 압력이 다른 조건과 비교해 모델 성능에 어떤 영향을 미치는가?
  • RQ5실험적 분석이 이루어지지 않은 서열 공간 영역에서의 미측정 돌연변이에 대해 모델의 예측 능력은 어떠한가?

주요 결과

  • 진화적 하미르토니안 모델은 자연 진화와 유사한 선택적 압력 조건에 처한 단백질에서 돌연변이 영향을 합리적인 정확도로 예측한다.
  • 항생제 내성과 관련된 단백질과 같이 실험 데이터가 확보된 단백질에 대해 높은 예측 정확도를 달성한다.
  • 모델이 포착한 잔류체 상호작용은 단일 잔류체 모델 대비 예측 성능을 크게 향상시킨다.
  • 실험적 데이터가 없더라도 기능적으로 중요한 잔류체와 그 상호작용의 공동 기여를 성공적으로 식별한다.
  • 모델의 성능은 다양한 단백질 가족에서 높은 안정성을 보이며, 미특성화된 서열에 대한 일반화 능력을 입증한다.
  • 자연적 서열 변이가 돌연변이의 기능적 영향을 예측하는 데 충분한 정보를 포함하고 있음을 보여주며, 높은 비용이 드는 실험적 분석에 대한 의존도를 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.