QUICK REVIEW

[论文解读] Variational auto-encoding of protein sequences

Sam Sinai, Eric D. Kelsic|arXiv (Cornell University)|Dec 9, 2017

Genomics and Phylogenetic Studies参考文献 10被引用 49

一句话总结

本文提出一种基于变分自编码器（VAE）的无监督蛋白序列表征方法，利用多序列比对（MSAs）实现对突变功能影响的预测以及序列-结构关系的发现。该VAE学习到一个连续的、低维的潜在空间，能够捕捉成对及更高阶的相互作用，在预测单突变和双突变的适应度效应方面优于基线模型，并接近逆Potts模型的性能。

ABSTRACT

Proteins are responsible for the most diverse set of functions in biology. The ability to extract information from protein sequences and to predict the effects of mutations is extremely valuable in many domains of biology and medicine. However the mapping between protein sequence and function is complex and poorly understood. Here we present an embedding of natural protein sequences using a Variational Auto-Encoder and use it to predict how mutations affect protein function. We use this unsupervised approach to cluster natural variants and learn interactions between sets of positions within a protein. This approach generally performs better than baseline methods that consider no interactions within sequences, and in some cases better than the state-of-the-art approaches that use the inverse-Potts model. This generative model can be used to computationally guide exploration of protein sequence space and to better inform rational and automatic protein design.

研究动机与目标

开发一种基于自然蛋白变异的多序列比对（MSAs）的无监督深度生成模型，用于蛋白序列表征。
在无标签适应度数据的情况下，预测单个和双氨基酸突变的功能影响。
学习一个连续的、低维的潜在空间，以编码蛋白序列之间的进化和功能关系。
实现对蛋白序列空间的计算探索，以支持理性蛋白设计。

提出的方法

在自然蛋白变异的多序列比对（MSAs）上训练变分自编码器（VAE），以学习压缩的、连续的潜在表征。
模型使用变分推断最大化证据下界（ELBO），近似潜在变量的真实后验分布。
编码器将独热编码的蛋白序列映射到潜在高斯分布，而解码器则从采样的潜在向量重建输入序列。
VAE引入KL散度项以正则化潜在空间，确保其近似标准正态分布。
模型捕捉氨基酸位置之间的非线性依赖关系和高阶相互作用，如通过不同突变位点的重建差异所示。
使用t-SNE将潜在空间可视化为二维，揭示了系统发育聚类以及突变体与参考序列的接近程度。

实验结果

研究问题

RQ1VAE能否从未标记的MSAs中学习到反映功能和进化关系的有意义且连续的蛋白序列表征？
RQ2与基线模型和最先进模型相比，VAE在预测单突变和双突变功能影响方面的表现如何？
RQ3所学习的潜在空间是否编码了生物学上相关的结构特征，例如系统发育距离和突变效应？
RQ4VAE能否捕捉超出成对相关性的氨基酸位置之间的高阶相互作用？
RQ5连续潜在空间能否用于引导蛋白序列空间的计算探索，以实现功能设计？

主要发现

VAE预测的功能评分与实验测得的适应度测量结果高度相关，在五个测试数据集中均优于独立和成对基线模型。
对于PABP蛋白，VAE在预测单突变和双突变适应度效应方面优于逆Potts模型，尤其在MSA规模更大的情况下表现更优。
二维潜在空间投影揭示了与最小编辑距离组相对应的明显聚类，表明模型捕捉到了系统发育和进化关系。
单个突变在重建过程中引起多个位置的氨基酸概率变化，证明了模型编码非局部高阶相互作用的能力。
潜在空间支持连续遍历，为蛋白设计中的梯度优化提供了新途径，区别于传统的离散搜索方法。
该模型能生成高概率的新型序列，表明其在虚拟筛选和从头蛋白设计中的应用潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。