[论文解读] DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking
DiffDock 将分子对接重新 framing 为对配体姿态变换(平移、旋转、扭转)的扩散式生成模型,在乘积空间上,在 PDBBind 达到 top-1 RMSD<2Å 的 state-of-the-art,并对apo结构具有鲁棒性能,具备快速 GPU 推理和可靠的置信估计。
Predicting the binding structure of a small molecule ligand to a protein -- a task known as molecular docking -- is critical to drug design. Recent deep learning methods that treat docking as a regression problem have decreased runtime compared to traditional search-based methods but have yet to offer substantial improvements in accuracy. We instead frame molecular docking as a generative modeling problem and develop DiffDock, a diffusion generative model over the non-Euclidean manifold of ligand poses. To do so, we map this manifold to the product space of the degrees of freedom (translational, rotational, and torsional) involved in docking and develop an efficient diffusion process on this space. Empirically, DiffDock obtains a 38% top-1 success rate (RMSD<2A) on PDBBind, significantly outperforming the previous state-of-the-art of traditional docking (23%) and deep learning (20%) methods. Moreover, while previous methods are not able to dock on computationally folded structures (maximum accuracy 10.4%), DiffDock maintains significantly higher precision (21.7%). Finally, DiffDock has fast inference times and provides confidence estimates with high selective accuracy.
研究动机与目标
- 将对接看作生成模型问题,以更好地与对接目标和评估指标保持一致。
- 开发一个在对接自由度(平移、旋转、扭转)上的扩散模型,并映射到乘积空间。
- 在 PDBBind 上实现最先进的对接精度,并评估对 apo-结构及计算生成的 apo-结构的鲁棒性。
- 提供一个置信模型来对采样的姿态进行排序,并实现高可靠性的选择性预测。
提出的方法
- 将配体姿态表述为乘积空间 P = T(3) × SO(3) × SO(2)^m 的变换,表示平移、旋转和扭转角。
- 在乘积空间 P 与姿态流形 M_c 之间定义一个双射映射 A,以在可处理的空间上实现扩散。
- 在每个因子上构造前向扩散(平移为高斯,SO(3) 上为 IGSO(3),SO(2)^m 上为卷绕正态),并训练一个分数模型 s(x,y,t) 来去噪在蛋白 y 条件下的 Pose 嵌入。
- 训练一个 SE(3)-等变的分数模型,作用于蛋白-配体结构的粗粒度、多尺度表示,预测平移、旋转和扭转分数。
- 引入一个置信模型 d(x,y),根据落在 2Å RMSD 内的可能性对采样姿态进行排序,并实现选择性预测。
- 在盲对接基准上评估 DiffDock,与 GNINA、SMINA、GLIDE、EquiBind 和 TANKBind 进行比较,并分析推理速度与置信性能。
实验结果
研究问题
- RQ1基于扩散的生成模型在配体姿态变换上,是否能相较回归式方法和传统搜索方法提高对接精度?
- RQ2将平移、旋转、扭转作为乘积空间扩散建模,是否在不重新训练的情况下,对 apo-结构和近似 apo-结构(ESMFold)提供更优的鲁棒性?
- RQ3置信模型是否能有效对姿态排序,提供可靠的 top-1 预测并实现选择性预测?
- RQ4相对于最先进的对接方法,在 GPU 上的速度表现如何,并随采样姿态数量的变化如何?
- RQ5在对接中乘积空间上的扩散与传统欧几里得姿态表示相比,有何优点与局限性?
主要发现
- DiffDock 在 PDBBind blind 对接上实现了 38% 的 top-1 成功率,RMSD < 2Å,优于此前的状态-of-the-art(传统 23%,深度学习 20%)。
- DiffDock 在 apo-结构上保持更高的精度(21.7% RMSD < 2Å),此前方法约止步于 10.4%。
- DiffDock 在 GPU 上比最佳基于搜索的方法(GNINA)快 3–12 倍,并在提供多样姿态采样的同时,保持有竞争力的推理速度。
- 在按置信度排名的前二分之一之一时,top-1 姿态的 RMSD < 2Å 的达到 83%,置信度与负 RMSD 的斯皮尔曼相关系数为 0.68。
- 在 ESMFold 生成的 apo-结构上,DiffDock 将 top-1 预测中有 22% 位于 2Å 内,几乎是此类结构最佳基线准确度的三倍。
- DiffDock 的两步法(扩散采样加置信排序)能够在不产生过高计算成本的情况下实现多样姿态生成与可靠姿态选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。