Skip to main content
QUICK REVIEW

[论文解读] Using Sequence Alignments to Predict Protein Structure and Stability With High Accuracy

Alan S. Lapedes, B. G. Giraud|arXiv (Cornell University)|Jul 10, 2012
Machine Learning in Bioinformatics参考文献 1被引用 62
一句话总结

本文提出了一种基于最大熵的玻尔兹曼网络模型,利用多序列比对推断蛋白质中的残基-残基相互作用,能够高精度预测蛋白质结构接触和突变引起的自由能变化。通过建模所有序列位置之间的相关进化模式,该方法捕捉了超越成对相关性的长程协同效应,与实验测得的稳定性和结构数据高度一致。

ABSTRACT

We present a sequence-based probabilistic formalism that directly addresses co-operative effects in networks of interacting positions in proteins, providing significantly improved contact prediction, as well as accurate quantitative prediction of free energy changes due to non-additive effects of multiple mutations. In addition to these practical considerations, the agreement of our sequence-based calculations with experimental data for both structure and stability demonstrates a strong relation between the statistical distribution of protein sequences produced by natural evolutionary processes, and the thermodynamic stability of the structures to which these sequences fold.

研究动机与目标

  • 开发一种基于序列的正式形式,以捕捉蛋白质中氨基酸位置之间的协同、网络化相互作用,超越孤立的成对相关性。
  • 仅利用自然序列变异,高精度定量预测多聚突变引起的蛋白质接触图谱和自由能变化。
  • 证明自然进化蛋白质序列的统计分布反映了其潜在的热力学稳定性和结构约束。
  • 为从进化序列数据推断物理相互作用参数提供严格的逆统计力学框架。
  • 通过利用推断的能量模型探索序列空间,实现新型稳定蛋白质序列的计算机设计。

提出的方法

  • 将蛋白质序列建模为20状态自旋系统,其中每个残基位置被视为一个具有20种可能状态(氨基酸)的自旋,相互作用由未知物理参数定义。
  • 应用最大熵原理,推导出与比对中观察到的单氨基酸和成对氨基酸频率相匹配的全长序列概率分布。
  • 由此得到的能量函数(公式2)包含位点特异性和成对相互作用参数(λ),通过拟合经验序列频率进行推断。
  • 利用推断的能量模型通过识别强相关残基对来预测接触图谱,并估算多聚突变引起的ΔG变化。
  • 采用模拟退火结合改进的Lam调度算法,探索庞大的序列空间(例如,20^11种序列),以识别高度稳定的疏水核心序列。
  • 利用Fyn SH3结构域突变体的实验熔解温度数据验证预测结果。

实验结果

研究问题

  • RQ1基于序列比对的统计模型能否准确预测哪些残基对在折叠蛋白质结构中处于空间邻近?
  • RQ2多聚突变的协同、非加和效应在多大程度上可从进化序列共变模式中预测?
  • RQ3从自然序列数据推断的能量模型与实验测得的蛋白质稳定性(如熔解温度)的相关性如何?
  • RQ4该模型能否通过利用推断的能量函数探索序列空间,识别出自然界中未发现的新型稳定蛋白质序列?
  • RQ5自然界蛋白质序列的统计分布是否反映了其折叠结构的潜在热力学稳定性?

主要发现

  • 该方法在Fyn SH3结构域中预测残基接触方面表现出高精度,通过捕捉长程协同效应,优于仅依赖成对相关性的方法。
  • 多聚突变的预测自由能变化(ΔG)与实验测得的熔解温度具有强相关性(R² ≈ 0.8)。
  • 对Fyn SH3中位置26、39和50的全部20³种三联突变体进行计算调查,识别出50种序列的预测熔解温度处于实验观测范围内。
  • 在Fyn SH3疏水核心的20¹¹个序列搜索空间中,最稳定的50条序列中有26条存在于原始比对中(即天然序列),验证了模型的预测能力。
  • 该模型成功预测了自然界中未发现的新型高稳定性序列,包括熔解温度高达84.9 °C的序列。
  • 分析显示,比对中稀有氨基酸对应的λ参数不确定性较高,相关序列被排除在显著预测之外,凸显了模型的鲁棒性及其局限性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。