Skip to main content
QUICK REVIEW

[论文解读] Protein contact prediction by joint evolutionary coupling analysis across multiple families.

Jianzhu Ma, Sheng Wang|arXiv (Cornell University)|Dec 10, 2013
Bioinformatics and Genomic Networks参考文献 18被引用 2
一句话总结

该论文提出了一种群体图 graphical lasso (GGL) 方法,通过将多个蛋白质家族的联合进化耦合 (EC) 分析与监督学习相结合,以提升蛋白质接触预测的准确性。通过使用高斯图形模型对相关家族进行建模并共享共进化模式,该方法增强了精度矩阵估计,并利用预测的接触概率作为先验信息,相较于现有方法,在保守接触和家族特异性接触上均实现了更高的准确性。

ABSTRACT

Protein contacts contain important information for protein structure and functional study, but contact prediction from sequence remains very challenging. Both evolutionary coupling (EC) analysis and supervised machine learning methods are developed to predict contacts, making use of different types of information, respectively. This paper presents a group graphical lasso (GGL) method for contact prediction that integrates joint multi-family EC analysis and supervised learning. Different from existing single-family EC analysis that uses residue co-evolution information in only the target protein family, our joint EC analysis uses residue co-evolution in both the target family and its related families, which may have divergent sequences but similar folds. To implement joint EC analysis, we model a set of related protein families using Gaussian graphical models (GGM) and then co-estimate their precision matrices by maximum-likelihood, subject to the constraint that the precision matrices shall share similar residue co-evolution patterns. To further improve the accuracy of the estimated precision matrices, we employ a supervised learning method to predict contact probability from a variety of evolutionary and non-evolutionary information and then incorporate the predicted probability as prior into our GGL framework. Experiments show that our method can predict contacts much more accurately than existing methods, and that our method performs better on both conserved and family-specific contacts.

研究动机与目标

  • 通过利用目标家族之外的共进化信号,提升蛋白质接触预测的准确性。
  • 解决单一家族进化耦合分析的局限性,即忽略具有相似折叠但序列差异较大的相关家族。
  • 通过使用高斯图形模型联合建模多个相关蛋白家族,提升精度矩阵估计的性能。
  • 将监督学习预测的接触概率作为先验信息整合进 GGL 框架,以提升估计精度。
  • 评估该方法在保守接触与家族特异性接触上的性能,这两类接触对现有方法而言具有挑战性。

提出的方法

  • 该方法使用高斯图形模型 (GGMs) 对一组相关蛋白家族进行建模,以表示残基的共进化模式。
  • 在精度矩阵共享相似共进化模式的约束下,通过最大似然估计联合估计多个家族的精度矩阵。
  • 采用群体图形 lasso (GGL) 框架,强制相关家族的精度矩阵之间保持结构相似性。
  • 使用监督学习从进化与非进化特征中预测接触概率,并将这些预测结果作为先验信息整合进 GGL 模型。
  • 联合估计过程整合了多家族 EC 数据与学习到的接触概率,以优化接触预测结果。

实验结果

研究问题

  • RQ1与单一家族 EC 分析相比,对多个相关蛋白家族进行联合进化耦合分析是否能提升接触预测的准确性?
  • RQ2将监督学习预测的接触概率作为先验信息,对多家族 EC 分析中精度矩阵的估计有何影响?
  • RQ3该方法在保守接触与家族特异性接触上的表现如何?后者更难预测。
  • RQ4在相关家族之间共享共进化模式在多大程度上提升了接触预测的鲁棒性?
  • RQ5整合多家族数据与监督先验信息,是否能实现 GGM 中更可靠的精度矩阵估计?

主要发现

  • 所提出的方法在接触预测准确性上显著优于现有的单一家族 EC 与监督学习方法。
  • 联合多家族 EC 分析通过利用具有相似折叠但序列差异较大的相关家族的共进化信号,提升了预测性能。
  • 将监督学习预测的接触概率作为先验信息整合进模型,显著提升了精度矩阵估计的准确性。
  • 该方法在保守接触与家族特异性接触上均表现良好,展现出对不同类型接触的鲁棒性。
  • GGL 框架中共享共进化模式的约束,带来了更可靠且更符合生物学意义的接触预测结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。