Skip to main content
QUICK REVIEW

[논문 리뷰] Protein contact prediction by joint evolutionary coupling analysis across multiple families.

Jianzhu Ma, Sheng Wang|arXiv (Cornell University)|2013. 12. 10.
Bioinformatics and Genomic Networks참고 문헌 18인용 수 2
한 줄 요약

이 논문은 단일 단백질 가족을 초월한 다중 단백질 가족 간의 공동 진화적 쌍용성(EC) 분석과 지도 학습을 통합하여 단백질 접촉 예측을 향상시키는 군 그래픽스 라소(GGL) 방법을 제안한다. 관련 가족들을 가우시안 그래픽스 모델(GGM)로 모델링하고 공통된 공진화 패턴을 공유함으로써 정밀도 행렬 추정을 향상시키며, 예측된 접촉 확률을 사전 정보로 활용함으로써 기존 방법에 비해 고정 및 가족 특이적 접촉 모두에서 뛰어난 정확도를 달성한다.

ABSTRACT

Protein contacts contain important information for protein structure and functional study, but contact prediction from sequence remains very challenging. Both evolutionary coupling (EC) analysis and supervised machine learning methods are developed to predict contacts, making use of different types of information, respectively. This paper presents a group graphical lasso (GGL) method for contact prediction that integrates joint multi-family EC analysis and supervised learning. Different from existing single-family EC analysis that uses residue co-evolution information in only the target protein family, our joint EC analysis uses residue co-evolution in both the target family and its related families, which may have divergent sequences but similar folds. To implement joint EC analysis, we model a set of related protein families using Gaussian graphical models (GGM) and then co-estimate their precision matrices by maximum-likelihood, subject to the constraint that the precision matrices shall share similar residue co-evolution patterns. To further improve the accuracy of the estimated precision matrices, we employ a supervised learning method to predict contact probability from a variety of evolutionary and non-evolutionary information and then incorporate the predicted probability as prior into our GGL framework. Experiments show that our method can predict contacts much more accurately than existing methods, and that our method performs better on both conserved and family-specific contacts.

연구 동기 및 목표

  • 타겟 가족을 초월한 공진화 신호를 활용하여 단백질 접촉 예측 정확도를 향상시키기 위해.
  • 일반적으로 단일 가족의 진화적 쌍용성 분석은 유사한 구조를 가졌지만 서열이 다를 수 있는 관련 가족들을 간과하는 한계를 해결하기 위해.
  • 가우시안 그래픽스 모델을 사용하여 다수의 관련 단백질 가족을 함께 모델링함으로써 정밀도 행렬 추정을 향상시키기 위해.
  • 지도 학습을 통해 예측한 접촉 확률을 사전 정보로 통합하여 GGL 프레임워크 내에서 정밀도 행렬 추정을 향상시키기 위해.
  • 기존 방법이 어려운 고정 및 가족 특이적 접촉에 대해 본 방법의 성능을 평가하기 위해.

제안 방법

  • 이 방법은 관련 단백질 가족 집합을 가우시안 그래픽스 모델(GGM)로 모델링하여 잔류기의 공진화 패턴을 표현한다.
  • 공동 공진화 패턴을 공유하는 제약 조건 하에 최대우도 추정을 통해 다수의 가족 정밀도 행렬을 동시에 추정한다.
  • 공동 그래픽스 라소(GGL) 프레임워크를 사용하여 관련 가족의 정밀도 행렬 간의 구조적 유사성을 강제한다.
  • 지도 학습을 사용하여 진화적 및 비진화적 특징에서 접촉 확률을 예측하고, 이를 GGL 모델에 사전 정보로 통합한다.
  • 공동 추정 과정은 다중 가족 EC 데이터와 학습된 접촉 확률을 통합하여 접촉 예측을 정교화한다.

실험 결과

연구 질문

  • RQ1다수의 관련 단백질 가족 간의 공동 진화적 쌍용성 분석이 단일 가족 기반의 EC 분석에 비해 접촉 예측 정확도를 향상시키는가?
  • RQ2지도 학습으로 예측한 접촉 확률을 사전 정보로 통합할 경우, 다중 가족 EC 분석에서 정밀도 행렬 추정에 어떤 영향을 미치는가?
  • RQ3본 방법은 고정 접촉과 가족 특이적 접촉 중 어느 쪽에서 더 뛰어난 성능을 보이는가? 특히 예측이 어려운 가족 특이적 접촉에 대해.
  • RQ4관련 가족 간에 공유되는 공진화 패턴은 접촉 예측의 정확성과 안정성에 얼마나 기여하는가?
  • RQ5다중 가족 데이터와 지도 학습 사전 정보의 통합은 GGM에서 정밀도 행렬 추정의 신뢰성 향상에 얼마나 기여하는가?

주요 결과

  • 제안된 방법은 기존의 단일 가족 기반 EC 및 지도 학습 방법에 비해 유의미하게 높은 접촉 예측 정확도를 달성한다.
  • 다중 가족 공진화 패턴 분석은 구조는 유사하지만 서열이 다를 수 있는 관련 가족의 공진화 신호를 활용함으로써 성능 향상을 이룬다.
  • 지도 학습으로 예측한 접촉 확률을 사전 정보로 통합함으로써 정밀도 행렬 추정 정확도가 향상된다.
  • 본 방법은 고정 접촉과 가족 특이적 접촉 모두에서 뛰어난 성능을 보이며, 다양한 종류의 접촉에 대해 뛰어난 강건성을 입증한다.
  • GGL 프레임워크 내에서 공유되는 공진화 패턴 제약 조건은 더 신뢰성 있고 생물학적으로 타당한 접촉 예측을 이끈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.