[论文解读] Look mom, no experimental data! Learning to score protein-ligand interactions from simulations
本文提出 Ligand Force Matching (LFM),在单一目标上基于 MD 仿真数据训练的神经网络,通过学习基于 PMF 的自由能景观来评分蛋白-配体结合,在每个蛋白质目标上进行 100-500 µs 的目标特异性 MD 训练后,获得与虚拟筛选相当的性能。
Despite recent advances in protein-ligand structure prediction, deep learning methods remain limited in their ability to accurately predict binding affinities, particularly for novel protein targets dissimilar from the training set. In contrast, physics-based binding free energy calculations offer high accuracy across chemical space but are computationally prohibitive for large-scale screening. We propose a hybrid approach that approximates the accuracy of physics-based methods by training target-specific neural networks on molecular dynamics simulations of the protein in complex with random small molecules. Our method uses force matching to learn an implicit free energy landscape of ligand binding for each target. Evaluated on six proteins, our approach achieves competitive virtual screening performance using 100-500 $μ$s of MD simulations per target. Notably, this approach achieves state-of-the-art early enrichment when using the true pose for active compounds. These results highlight the potential of physics-informed learning for virtual screening on novel targets. We publicly release the code for this paper at https://github.com/molecularmodelinglab/lfm under the MIT license.
研究动机与目标
- 推动在蛋白-配体结合评分方面超越纯 ML 或纯物理方法的改进。
- 提出一个在 MD 推导的力数据上训练的目标特异性神经网络,以近似配体结合的 PMF。
- 在保持物理信息驱动准确性的前提下实现快速评分,适用于虚拟筛选。
- 在多个目标上展示性能并分析姿态敏感性与泛化能力。
- 发布代码和数据以促进复现和进一步发展。
提出的方法
- 通过在靶点结合位点放置随机的小分子并进行简短的等效化准备和 MD,生成基于 MD 的训练数据以去除冲突。
- 用力匹配训练神经网络以近似分子间 PMF G_PMF,减去分子内项,使用一个同时匹配力和 COM 转矩的损失。
- 通过原子级嵌入(atom-ML embeddings)和等变变换器嵌入配体特征和坐标,来预测基于 PMF 的能量。
- 通过计算 docked 构象的 f(x) ,再从可溶参考构象的 f(x_solv) 中减去,来估算 ΔG_binding(刚性配体假设)。
- 使用力匹配损失加上 COM 力与转矩损失的加权项来训练模型。
- 在六个目标上评估,每个目标 100-500 µs 的 MD,并与 Vina、Gnina 与 DiffDock 基于的 docking 集合进行比较。
实验结果
研究问题
- RQ1一个在 MD 推导力数据上训练的目标特异性神经网络是否足以近似蛋白-配体结合的 PMF,从而改善虚拟筛选?
- RQ2使用 docked 构象与真实配体构象时,LFM 相对传统评分方法的表现如何?
- RQ3该方法在内域目标上是否具有竞争力,并且对训练数据中缺失的新靶点是否更具鲁棒性?
- RQ4实现竞争性富集所需的每目标 MD 数据量(时间)是多少?
主要发现
| Model | EF^B_max | EF^B_1% | AUC |
|---|---|---|---|
| Vina (UD) | 9.7 [3.4, 15] | 1.9 [0.86, 2.7] | 0.54 ± 0.03 |
| Gnina (UD) | 6.9 [4.2, 14] | 3.7 [2.1, 4.5] | 0.59 ± 0.02 |
| LFM (UD) | 4.6 [3.3, 14] | 2.0 [1.2, 3.1] | 0.52 ± 0.02 |
| Vina (DD) | 16 [4.7, 25] | 3.5 [2.0, 4.4] | 0.60 ± 0.02 |
| Gnina (DD) | 13 [7.7, 27] | 5.8 [3.9, 7.3] | 0.68 ± 0.02 |
| LFM (DD) | 14 [7.8, 33] | 6.2 [3.6, 8.7] | 0.58 ± 0.03 |
- 在使用真实共晶构象作为活性分子时,LFM 在若干目标上实现了最先进的早期富集。
- LFM 使用 docked 构象时与基线评分者具有竞争力,并表现出对姿态的强烈敏感性,在姿态选择方面表现出色。
- 使用 DiffDock 或更精确的 docking 能提升富集度,且晶体构象对 LFM 的收益显著。
- 每目标 100-500 µs 的 MD 数据在六个蛋白上实现了具有成本效益的竞争性富集(约每目标 1K 美元)。
- LFM 推断速度快,在 L40 GPU 上平均每分子约 2.5 秒,便于大规模筛选。
- 在使用真实姿态时,LFM 展现出优越的姿态重新排序能力,凸显其物理信息驱动和姿态敏感特性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。