[论文解读] Predicting a Protein's Stability under a Million Mutations
提出 Mutate Everything,一种并行解码方法,在一次前向传递中预测所有单点及高阶突变的ΔΔG,实现对蛋白质稳定性的可扩展评估。
Stabilizing proteins is a foundational step in protein engineering. However, the evolutionary pressure of all extant proteins makes identifying the scarce number of mutations that will improve thermodynamic stability challenging. Deep learning has recently emerged as a powerful tool for identifying promising mutations. Existing approaches, however, are computationally expensive, as the number of model inferences scales with the number of mutations queried. Our main contribution is a simple, parallel decoding algorithm. Our Mutate Everything is capable of predicting the effect of all single and double mutations in one forward pass. It is even versatile enough to predict higher-order mutations with minimal computational overhead. We build Mutate Everything on top of ESM2 and AlphaFold, neither of which were trained to predict thermodynamic stability. We trained on the Mega-Scale cDNA proteolysis dataset and achieved state-of-the-art performance on single and higher-order mutations on S669, ProTherm, and ProteinGym datasets. Code is available at https://github.com/jozhang97/MutateEverything
研究动机与目标
- 推动在对位点间互作存在的情况下,快速识别稳定化突变以辅助蛋白质工程。
- 开发一个可扩展的解码器,在一次前向传递中计算所有单点及高阶突变的ΔΔG。
- 在基准稳定性数据集(ProTherm、S669、ProteinGym)上展示最先进的性能。
- 展示对跨蛋白枚举突变的实际可扩展性,并与现有方法相比具有优势。
提出的方法
- 使用预训练主干(AlphaFold,微调;也可以使用 ESM2)来提取序列的逐位特征。
- 对每个位点及其可能的氨基酸,计算潜在突变表示 z(μ)=f^t(x_p)+h^t。
- 使用轻量头 g^1 从 z(μ) 解码单点突变以预测 ΔΔG。
- 对于高阶突变 M={μ_k},聚合它们的单点突变表示(求和)并使用轻量头 g 解码以预测 ΔΔG。
- 预计算所有 z(μ) 对于 L×20 种可能的突变;对于任何突变集,建立索引,求和相关的 z(μ),并并行解码。
- 使用对单点和双点突变的 Huber 损失进行训练,按需要学习高阶相互作用的残差。

实验结果
研究问题
- RQ1一个统一的、并行解码器是否能够在单点和高阶突变上都准确预测 ΔΔG?
- RQ2Mutate Everything 框架在已确立的稳定性基准(ProTherm、S669、ProteinGym)上相对于最先进的方法表现如何?
- RQ3一次前向传递枚举所有突变是否使跨大型蛋白质或整个蛋白质组的稳定性分析变得可行?
- RQ4在不使用结构坐标的情况下,对 AlphaFold/ESM2 等主干进行微调在多大程度上能改善稳定性预测?
- RQ5模型如何处理高阶突变集合中的对位效应?
主要发现
| 方法 | r_s | AUC | MCC | RMSE ↓ | 稳定化 r_s |
|---|---|---|---|---|---|
| Mutate Everything (Ours) | 0.53 (0.01) | 0.78 (0.01) | 0.43 (0.01) | 2.04 (0.01) | 0.19 (0.01) |
| Mutate Everything (Additive) | 0.50 (0.02) | 0.76 (0.01) | 0.37 (0.02) | 2.02 (0.03) | 0.20 (0.01) |
| PROSTATA (Additive) | 0.50 (0.00) | 0.73 (0.02) | 0.28 (0.02) | 1.44 (0.02) | 0.00 (0.00) |
- 在 ProTherm PTMul(0.53)和 S669(0.56)上实现了最先进的 Spearman 相关性,并在 ProteinGym 稳定性基准(0.52–0.53 之间的 r_s)以及 AUC/MCC 指标上表现优于对比。
- 在 cDNA2 上将稳定化的双突变排在不稳定的突变之前,nDCG 0.43 对 0.25,DetPr 0.16 对 0.10。
- 在单个 GPU 上几秒内即可对所有单点和双点突变进行一次前向传递(ESM2 为 0.6s,AlphaFold 主干为 12.1s)。
- 通过建模对位效应而不是简单相加单点突变之和,超越可加性基线。
- 展示对 ProteinGym 及 ProteinGym-Stability 的泛化,并且集成化相较于基于 Tranception 的方法有收益。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。