[论文解读] 3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction
TargetDiff 是一个 3D SE(3)-等变扩散模型,能够非自回归地产生目标相关分子并提供无监督特征以对结合亲和力进行排序和预测。
Rich data and powerful machine learning models allow us to design drugs for a specific protein target extit{in silico}. Recently, the inclusion of 3D structures during targeted drug design shows superior performance to other target-free models as the atomic interaction in the 3D space is explicitly modeled. However, current 3D target-aware models either rely on the voxelized atom densities or the autoregressive sampling process, which are not equivariant to rotation or easily violate geometric constraints resulting in unrealistic structures. In this work, we develop a 3D equivariant diffusion model to solve the above challenges. To achieve target-aware molecule design, our method learns a joint generative process of both continuous atom coordinates and categorical atom types with a SE(3)-equivariant network. Moreover, we show that our model can serve as an unsupervised feature extractor to estimate the binding affinity under proper parameterization, which provides an effective way for drug screening. To evaluate our model, we propose a comprehensive framework to evaluate the quality of sampled molecules from different dimensions. Empirical studies show our model could generate molecules with more realistic 3D structures and better affinities towards the protein targets, and improve binding affinity ranking and prediction without retraining.
研究动机与目标
- 开发一个非自回归、SE(3)-等变扩散模型,用于在蛋白质结合口袋条件下生成分子。
- 联合建模连续原子坐标和离散原子类型,以捕捉三维相互作用。
- 从生成过程中实现无监督的亲和力估计,以帮助药物筛选。
- 在 CrossDocked2020 上用多种结构和亲和力相关指标评估生成的分子。
- 提供一个端到端框架,使训练与采样在目标感知药物设计中对齐。
提出的方法
- 将蛋白口袋和分子表示为带有坐标和特征的3D原子点集。
- 对连续坐标和离散原子类型使用DDPM风格的扩散框架,并采用合适的噪声时间表。
- 实现一个SE(3)-等变图神经网络,交替更新原子嵌入和坐标。
- 对反向过程进行参数化,以预测去噪的 x0、v0 并建模平移和旋转不变的似然性。
- 使用原子坐标和原子类型的联合损失进行训练,坐标可能使用无权重的均方误差。
- 利用无监督去噪特征用于亲和力排序,以及可选地提升有监督亲和力预测器。
实验结果
研究问题
- RQ1一个非自回归、SE(3)-等变扩散模型能否生成具有现实三维结构的目标感知分子?
- RQ2相比自回归或基于体素的方法,坐标和原子类型的联合扩散是否提高了三维结构保真度和结合现实性?
- RQ3扩散模型能否提供与结合亲和力相关并能提升亲和力排序/预测的有用无监督特征?
- RQ4相较基线,TargetDiff 生成的分子在结构真实感、对接能量和药物样性质方面的表现如何?
- RQ5训练与采样过程是否对齐,以实现无须重新训练即可扩展的目标相关药物设计?
主要发现
| 模型 | Vina 分数(平均)或 平均 | Vina 分数(中位) | Vina Dock(平均) | Vina Dock(中位) | 高亲和力(平均) | 高亲和力(中位) | QED(平均) | QED(中位) | SA(平均) | SA(中位) | 多样性(平均) | 多样性(中位) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| liGAN | -6.33 | -6.20 | 21.1% | 11.1% | 0.39 | 0.39 | 0.59 | 0.57 | 0.66 | 0.67 | - | - |
| GraphBP | -4.80 | -4.70 | 14.2% | 6.7% | 0.43 | 0.45 | 0.43 | 0.45 | 0.49 | 0.48 | 0.79 | 0.78 |
| AR | -5.75 | -5.64 | -6.18 | -5.88 | 37.9% | 31.0% | 0.51 | 0.50 | 0.63 | 0.63 | 0.70 | 0.70 |
| Pocket2Mol | -5.14 | -4.70 | -7.15 | -6.79 | 48.4% | 51.0% | 0.56 | 0.57 | 0.74 | 0.75 | 0.69 | 0.71 |
| TargetDiff | -5.47 | -6.30 | -7.80 | -7.91 | 58.1% | 59.1% | 0.48 | 0.48 | 0.58 | 0.58 | 0.72 | 0.71 |
| Reference | -6.36 | -6.46 | -6.71 | -6.49 | - | - | 0.48 | 0.47 | 0.73 | 0.74 | - | - |
- TargetDiff 生成的分子具有更真实的三维结构,在参考键长分布上的对齐优于基线。
- TargetDiff 比竞争模型产生更一致的刚性片段(基于 MMFF 的 RMSD 更低)。
- 在100个测试靶标上,TargetDiff 分子在中位 Vina 能量方面在57%的靶标中最好,且高亲和力比例更高(平均58.1%)相较基线。
- 生成的分子在 Vina Dock 得分上具竞争力或优于基线方法,并在 QED、SA 和多样性方面保持合理水平。
- 去噪原子类型分布的熵(无监督特征)与实验亲和力相关,将这些特征与有监督模型结合可在 PDBbind v2020 上提升结合亲和力预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。