Skip to main content
QUICK REVIEW

[论文解读] A Latent Diffusion Model for Protein Structure Generation

Cong Fu, Keqiang Yan|arXiv (Cornell University)|May 6, 2023
Protein Structure and Dynamics被引用 9
一句话总结

本文提出 LatentDiff,一种潜在扩散框架,结合等变蛋白自编码器,在简化的潜在空间中生成新颖的蛋白质主链结构,从而提高可设计性和采样效率。

ABSTRACT

Proteins are complex biomolecules that perform a variety of crucial functions within living organisms. Designing and generating novel proteins can pave the way for many future synthetic biology applications, including drug discovery. However, it remains a challenging computational task due to the large modeling space of protein structures. In this study, we propose a latent diffusion model that can reduce the complexity of protein modeling while flexibly capturing the distribution of natural protein structures in a condensed latent space. Specifically, we propose an equivariant protein autoencoder that embeds proteins into a latent space and then uses an equivariant diffusion model to learn the distribution of the latent protein representations. Experimental results demonstrate that our method can effectively generate novel protein backbone structures with high designability and efficiency. The code will be made publicly available at https://github.com/divelab/AIRS/tree/main/OpenProt/LatentDiff

研究动机与目标

  • 动机:减少用于三维蛋白质主链的扩散建模空间以提高效率。
  • 提出一个保持序列和三维几何的等变自编码器,以生成潜在表征。
  • 开发在潜在蛋白质表征上运行的旋转不变潜在扩散过程。
  • 展示相对于基线的重建质量、可设计性和并行采样效率。

提出的方法

  • 设计一个 SE(3) 等变蛋白自编码器,在保持 C-alpha 顺序的同时对蛋白主链进行下采样/上采样。
  • 构建一个基于图的潜在空间,包含结构填充、边构建、图扩展与 SE(3) 等变信息传递。
  • 在自编码器潜在空间中训练潜在扩散模型,使用旋转等变的反向扩散。
  • 通过零均值潜在表示和潜在空间中的旋转等变扩散(基于 EDM)来强制 SE(3) 不变。
  • 使用两阶段生成:编码到潜在空间、在潜在空间中进行扩散以采样潜在表示,然后解码回 3D 主链。

实验结果

研究问题

  • RQ1LatentDiff 是否能够生成具有良好可设计性的新颖蛋白质主链结构?
  • RQ2SE(3) 等变自编码器是否能够有效压缩蛋白质主链以用于扩散建模?
  • RQ3潜在空间扩散在可设计性和采样效率方面,与全空间扩散相比有何差异?
  • RQ4潜在扩散过程是否具有旋转不变性,且适用于三维蛋白质几何?

主要发现

方法RMSD (Å)Augment Acc (%)Residue Acc (%)Edge Stable (%)Torsion MAE (rad)
auto-20.52801009995.290.4361
auto-41.27551009870.990.8951
auto-82.27721004559.971.1903
  • 具有下采样因子4的自编码器实现了平衡的重建(RMSD 1.2755 Å, Augment Acc 100%, Residue Acc 98%, Edge Stable 70.99%, Torsion MAE 0.8951 rad)。
  • LatentDiff 可设计性:生成的主链中有 66.9% 的 scTM > 0.5,优于 FoldingDiff (14.2%) 和 ProtDiff (11.8%)。
  • LatentDiff 在可设计性上具有竞争力,同时与某些全原子扩散基线相比实现更快的采样速度(例如 LatentDiff-P 更高效)。
  • 对于自编码器变体,较小的下采样(因子 2)带来更好的重建但潜在空间更大;因子 4 在重建与效率之间提供平衡。
  • 该方法支持并行采样效率,相较于某些基线减少扩散步骤,同时保持可设计性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。