Skip to main content
QUICK REVIEW

[论文解读] DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding

Haitao Lin, Yufei Huang|arXiv (Cornell University)|Nov 21, 2022
Computational Drug Discovery Methods被引用 32
一句话总结

DiffBP 使用全原子、非自回归扩散模型,在目标蛋白条件下生成三维分子结构,旨在获得更高的结合亲和力和更真实的药物样性质。

ABSTRACT

Generating molecules that bind to specific proteins is an important but challenging task in drug discovery. Previous works usually generate atoms in an auto-regressive way, where element types and 3D coordinates of atoms are generated one by one. However, in real-world molecular systems, the interactions among atoms in an entire molecule are global, leading to the energy function pair-coupled among atoms. With such energy-based consideration, the modeling of probability should be based on joint distributions, rather than sequentially conditional ones. Thus, the unnatural sequentially auto-regressive modeling of molecule generation is likely to violate the physical rules, thus resulting in poor properties of the generated molecules. In this work, a generative diffusion model for molecular 3D structures based on target proteins as contextual constraints is established, at a full-atom level in a non-autoregressive way. Given a designated 3D protein binding site, our model learns the generative process that denoises both element types and 3D coordinates of an entire molecule, with an equivariant network. Experimentally, the proposed method shows competitive performance compared with prevailing works in terms of high affinity with proteins and appropriate molecule sizes as well as other drug properties such as drug-likeness of the generated molecules.

研究动机与目标

  • 推进在蛋白结合位点条件下的非自回归、符合物理规律的分子生成。
  • 用基于能量的联合分布推理来建模全原子分子结构,而不是依赖于序列化的生成步骤。
  • 强制实现 SE(3) 变换等变性和质心约束,以遵守三维几何对称性。
  • 将 DiffBP 与最先进的自回归方法在结合亲和力和药物样性质方面进行对比评估。

提出的方法

  • 使用连续坐标和离散原子类型对全原子分子来建立 p(M|P) 的扩散模型。
  • 使用 SE(3) 等变图神经网络作为去噪器来预测去噪坐标和原子类型。
  • 应用零质心约束以确保平移不变性,并依赖扩散过程处理旋转不变性。
  • 在生成过程中加入相交正则化损失,以避免分子-蛋白表面重叠。
  • 通过预生成GNN预先生成分子大小和质心,以稳定扩散输入。

实验结果

研究问题

  • RQ1非自回归扩散模型是否能够在目标蛋白结合位点条件下生成全原子分子?
  • RQ2强制实现 SE(3) 等变性和质心约束是否提升物理合理性和对接性能?
  • RQ3生成的分子在尺寸分布、亲和力和药物样性质方面与自回归基线相比如何?
  • RQ4相交正则化项对分子有效性和对接质量的影响是什么?
  • RQ5基于扩散的方法是否能生成在药物样分布附近且具有有利化学性质(QED、SA、LPSK 等)的分子?

主要发现

  • DiffBP 在与领先的自回归方法相比的结合亲和力评分上具有竞争力,同时生成的分子尺寸分布较均衡(大多数为中等尺寸)且具备有利的药物样性质。
  • 模型通过质心约束和等变去噪保持 SE(3) 不变性,从而实现物理上合理的三维结构。
  • DiffBP 避免了自回归生成中常见的早停问题,产生更广泛的分子尺寸分布,与药物样范围对齐。
  • 加入相交正则化项可提高分子有效性和对接性能。
  • 与基线相比,DiffBP 在 QED、SA 和 LPSK 得分方面具有竞争力,在不同大小组之间有不同的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。