QUICK REVIEW

[论文解读] ProGen: Language Modeling for Protein Generation

Ali Madani, Bryan McCann|arXiv (Cornell University)|Mar 8, 2020

Genomics and Phylogenetic Studies参考文献 35被引用 34

一句话总结

ProGen 是一个具有 1.2B 参数的条件语言模型，在约 281M 条蛋白质序列上训练，带有条件标签，能够实现可控蛋白质生成，使其与结构和功能相关指标保持一致，包括零样本情形以及对未见家族的微调。

ABSTRACT

Generative modeling for protein engineering is key to solving fundamental problems in synthetic biology, medicine, and material science. We pose protein engineering as an unsupervised sequence generation problem in order to leverage the exponentially growing set of proteins that lack costly, structural annotations. We train a 1.2B-parameter language model, ProGen, on ~280M protein sequences conditioned on taxonomic and keyword tags such as molecular function and cellular component. This provides ProGen with an unprecedented range of evolutionary sequence diversity and allows it to generate with fine-grained control as demonstrated by metrics based on primary sequence similarity, secondary structure accuracy, and conformational energy.

研究动机与目标

利用大规模蛋白质序列数据实现无监督、生成式蛋白质设计。
开发一个可以被分类法和功能标签引导的条件Transformer模型。
在序列、二级结构和构象能量等指标上评估生成的蛋白质。
在未见的蛋白质家族上展示能力，并进行零样本功能选择。
探索定向进化和从零开始设计的实际应用。

提出的方法

训练一个基于 Transformer 的条件语言模型，具有 36 层、1028 维嵌入和每层 8 个注意力头，以建模 p(x)，其中 x 将条件标签与氨基酸标记组合在一起。
将生成条件设在一个丰富的标签集合上（1100 个关键字标签和 100k 个分类术语）并附加到序列后面，启用可控蛋白质设计。
使用来自 Uniparc/UniProt/SWI... 的约 281M 条蛋白质序列数据集，序列长度上限为 512 个令牌，另外包含反向序列，且对条件标签进行 dropout。
在生成过程中使用 top-k 采样和重复惩罚来鼓励多样性，同时保持结构。
使用困惑度、硬/软（BLOSUM62）令牌准确性，以及更高层次的指标进行评估：一级序列相似性、二级结构准确性（PSIPRED 与 MSAs）和构象能量（Rosetta-RelaxBB）。
与均匀和经验基线进行比较；在未见家族上进行微调以提高领域外泛化能力。

实验结果

研究问题

RQ1一个大型条件语言模型是否能够从大型、带注释的序列数据库中学习进化上可行的蛋白质序列分布？
RQ2条件标签是否能在序列及更高阶结构属性上改进可控蛋白质生成？
RQ3ProGen 对未见蛋白质家族（OOD）的泛化能力如何，微调是否能改善这种泛化？
RQ4在穿线/放松后，ProGen 生成的序列是否呈现原生样的二级结构和有利的构象能量？
RQ5在无需监督训练的情况下，ProGen 是否能够执行零样本选择以识别高适应性蛋白质变体（例如 GB1）？

主要发现

Model	PPL	Hard Acc.
Uniform Baseline	25	4
Empirical Baseline	18.14	6
ProGen	8.56	45
ID-test	8.17	45
OOD-test	13.34	22
OOD-test-20 (rand. init.)	17.78	9
OOD-test-20 (fine-tuned)	7.45	50

ProGen 在困惑度和硬性准确性方面显著优于均匀基线和经验基线，甚至在未收录的蛋白质家族上亦是如此。
困惑度下降，单位令牌的准确性随氨基酸上下文增加和 conditioning 标签增多而提高。
生成序列显示二级结构准确性提高，构象能量接近原生蛋白，放松后通常优于基线。
在未见蛋白质家族上对 ProGen 进行微调，相较于随机初始化训练，取得显著提升，特别是在 OOD 设置中。
VEGFR2 完成样本在整个生成长度中保留关键结构要素并维持接近原生能量水平。
在零样本 GB1 适应性筛选中，ProGen 在无监督训练的情况下识别高适应性变体，优于随机突变基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。