Skip to main content
QUICK REVIEW

[论文解读] Protein Structure and Sequence Generation with Equivariant Denoising Diffusion Probabilistic Models

Namrata Anand, Tudor Achim|arXiv (Cornell University)|May 26, 2022
Protein Structure and Dynamics被引用 99
一句话总结

一个完全数据驱动的扩散模型,生成大规模蛋白质结构、序列和 rotamers,具有物理可行性并可在紧凑拓扑约束下进行条件化设计。

ABSTRACT

Proteins are macromolecules that mediate a significant fraction of the cellular processes that underlie life. An important task in bioengineering is designing proteins with specific 3D structures and chemical properties which enable targeted functions. To this end, we introduce a generative model of both protein structure and sequence that can operate at significantly larger scales than previous molecular generative modeling approaches. The model is learned entirely from experimental data and conditions its generation on a compact specification of protein topology to produce a full-atom backbone configuration as well as sequence and side-chain predictions. We demonstrate the quality of the model via qualitative and quantitative analysis of its samples. Videos of sampling trajectories are available at https://nanand2.github.io/proteins .

研究动机与目标

  • 在大规模条件下推动具备特定三维结构和化学性质的蛋白质设计。
  • 提出一个完全数据驱动的蛋白质结构、序列和 rotamers 的生成模型。
  • 实现基于紧凑拓扑约束的条件生成,以产生多样且物理上可行的蛋白质。

提出的方法

  • 使用在实验蛋白质数据上训练的去噪扩散概率模型来生成 backbone 坐标、旋转、序列和侧链扭转。
  • 使用具有不变点注意力的等变 Transformer 以确保旋转/平移不变性和等变性。
  • 通过在 SU(2) 上使用 SLERP 进行插值来扩散旋转,并通过类似遮罩语言模型的离散扩散来扩散离散序列。
  • 为结构、序列和 rotamers 训练独立的扩散模型,采用在块层级编码拓扑的紧凑约束条件方案。
  • 结合 frame-aligned point error (FAPE) 损失来训练旋转不变的去噪器。

实验结果

研究问题

  • RQ1扩散模型是否能够在跨越多样化的 PDB 域拓扑下生成大规模、物理上可信的蛋白质结构?
  • RQ2在生成的骨架条件下,模型设计序列并进行 rotamer 打包的能力如何?
  • RQ3紧凑拓扑约束在可控蛋白质生成和修补中的引导作用有多大?
  • RQ4结构与序列的联立扩散建模与分离扩散建模相比,其影响如何?

主要发现

  • 该模型产生高质量、多样的蛋白质结构,具有逼真的氢键模式和主链几何。
  • 序列设计和 rotamer 打包与基线相比相当或更快,并显示出有竞争力的恢复率。
  • 该模型支持修补和可控设计,包括拓扑修改、环路设计和可变长度环路。
  • 结构与序列的联立建模展示了上下文上可行的修补以及完整原子级环路和 Ig 设计的潜力。
  • 样本在 Ramachandran 分布和键长/角度直方图等生物物理先验方面表现较为接近。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。