QUICK REVIEW

[论文解读] Structure-informed Language Models Are Protein Designers

Zaixiang Zheng, Yifan Deng|arXiv (Cornell University)|Feb 3, 2023

Machine Learning in Bioinformatics被引用 9

一句话总结

LM-Design 通过插入一个轻量级结构适配器来重新定位蛋白质语言模型，用于为给定折叠设计序列，在 CATH 基准测试上实现最新恢复率，并对抗体和从头蛋白质具有强大的零-shot 泛化能力。

ABSTRACT

This paper demonstrates that language models are strong structure-based protein designers. We present LM-Design, a generic approach to reprogramming sequence-based protein language models (pLMs), that have learned massive sequential evolutionary knowledge from the universe of natural protein sequences, to acquire an immediate capability to design preferable protein sequences for given folds. We conduct a structural surgery on pLMs, where a lightweight structural adapter is implanted into pLMs and endows it with structural awareness. During inference, iterative refinement is performed to effectively optimize the generated protein sequences. Experiments show that LM-Design improves the state-of-the-art results by a large margin, leading to up to 4% to 12% accuracy gains in sequence recovery (e.g., 55.65%/56.63% on CATH 4.2/4.3 single-chain benchmarks, and >60% when designing protein complexes). We provide extensive and in-depth analyses, which verify that LM-Design can (1) indeed leverage both structural and sequential knowledge to accurately handle structurally non-deterministic regions, (2) benefit from scaling data and model size, and (3) generalize to other proteins (e.g., antibodies and de novo proteins)

研究动机与目标

提出并开发一种方法，利用预训练的大型蛋白质语言模型（pLMs）进行基于结构的蛋白质设计，解决数据稀缺和非确定性区域的问题。
引入 LM-Design，这是一个模块化框架，将一个轻量级结构适配器插入到 pLM 中，使其具备结构感知能力。
证明 LM-Design 能在单链和多链蛋白质上改善序列恢复，而无需额外的训练数据。
分析 LM-Design 如何从数据/模型规模提升中受益，并对未见蛋白质家族（抗体、de novo 蛋白质）具备泛化能力。

提出的方法

将一个轻量级结构适配器插入到预训练蛋白质语言模型（如 ESM-1b），以访问外部结构编码器（如 ProteinMPNN）。
在条件掩码语言建模目标（CMLM）下进行训练，以实现去噪和在给定骨架结构 X 时的条件序列生成。
在推理阶段，通过对解码器进行 T 次迭代回收实现迭代细化，从粗到细进行序列优化。
使用温度控制的采样方案，在设计的准确性和多样性之间取得平衡。
通过将预测结构（如 AlphaFold2）整合到数据增强中，进一步提升性能。
演示与模型无关且模块化的设计，兼容各种 pLM 和结构编码器。

实验结果

研究问题

RQ1预训练的蛋白质语言模型在增添结构适配器后，是否能有效设计出折叠到目标骨架的序列？
RQ2与纯结构驱动设计方法相比，LM-Design 在单链和多链蛋白质上的表现如何？
RQ3迭代细化和采样温度对设计准确性和多样性有何影响？
RQ4LM-Design 能否泛化到未见的蛋白质类别，如抗体和 de novo 蛋白质？
RQ5数据增强和模型规模对设计性能有何影响？

主要发现

LM-Design 在 CATH 4.2 和 4.3 单链基准测试上实现 55.65% 和 56.63% 的序列恢复率，对蛋白质复合体则超过 60%。
LM-Design 在没有额外训练数据的情况下，相较 ProteinMPNN+CMLM 和 PiFold 基线提供了显著提升。
迭代细化带来稳定的准确性提升，几轮后收益递减。
LM-Design 可以随更大规模的 pLM（ESM-2 高达 3B 参数）以及与预训练结构编码器一起扩展，遵循清晰的缩放规律。
零-shot 评估显示对抗体和 de novo 蛋白质具备强泛化能力，在 TS50/TS500 数据集上优于竞争方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。