[论文解读] We Should at Least Be Able to Design Molecules That Dock Well
这篇论文提出了一种基于对接的去 novo 药物设计基准,使用 SMINA 分数来评估生成的分子,在现实规模的训练集下当前基于图的模型难以超越顶级基准。
Designing compounds with desired properties is a key element of the drug discovery process. However, measuring progress in the field has been challenging due to the lack of realistic retrospective benchmarks, and the large cost of prospective validation. To close this gap, we propose a benchmark based on docking, a popular computational method for assessing molecule binding to a protein. Concretely, the goal is to generate drug-like molecules that are scored highly by SMINA, a popular docking software. We observe that popular graph-based generative models fail to generate molecules with a high docking score when trained using a realistically sized training set. This suggests a limitation of the current incarnation of models for de novo drug design. Finally, we propose a simplified version of the benchmark based on a simpler scoring function, and show that the tested models are able to partially solve it. We release the benchmark as an easy to use package available at https://github.com/cieplinski-tobiasz/smina-docking-benchmark. We hope that our benchmark will serve as a stepping stone towards the goal of automatically generating promising drug candidates.
研究动机与目标
- 推动在 de novo 药物设计中需要现实的基准,超越简单的代理性质。
- 引入一个基于对接的基准,该基准通过 SMINA 的对接构象来对生成的分子进行评分。
- 在该基准上评估流行的生成模型,以识别当前的局限性。
- 提供一个易于获取的基准以及代码发布,以便可重复性和未来改进。
提出的方法
- 定义一个基于对接的基准,在该基准中生成的分子使用 SMINA 对目标结合位点进行对接。
- 使用 SMINA 的默认评分函数及其组成部分对构象进行评分。
- 以 ChEMBL 目标(5-HT1B、5-HT2B、ACM2、CYP2D6)为训练数据来源,并使用 Lipinski 规则进行过滤。
- 通过使用基于 ZINC 的相似性阈值(ECFP2,1024 位)去除与训练数据相似的化合物来评估新颖性。
- 在三个任务(Docking Score Function、Repulsion、Hydrogen Bonding)上比较基线(ZINC 子集)和三种模型(CVAE、GVAE、REINVENT)。
- 通过 ECFP 指纹的平均 Tanimoto 距离评估多样性,并分析生成分子的可合成性分析。
实验结果
研究问题
- RQ1当前的 de novo 药物设计模型是否能够在现实的对接基准中生成达到高对接分数的分子?
- RQ2现实的训练集规模(千级)是否限制了流行生成模型超越已知高分配体的能力?
- RQ3SMINA 评分函数中不同目标的影响如何影响分子生成和多样性?
- RQ4在生成集合中,对接分数优化与化学多样性或药物相似性之间是否存在显著权衡?
- RQ5关于实现有效的 de novo 对接优化,模型数据需求可以得到哪些洞见?
主要发现
- CVAE 和 GVAE 通常难以在 Docking Score Function 任务中超越 ZINC 平均对接分数。
- REINVENT 的对接分数优于 ZINC 的平均分数和训练数据,但通常没有超过 ZINC 分数的前 10%。
- 生成的分子往往比训练数据多样性更低,REINVENT 在各任务上显示出显著较低的多样性。
- 单一 SMINA 项(例如氢键)优化比完整对接分数优化更易实现,表明不同目标难度差异。
- 即使训练规模超过 1,000 个化合物,生成分子的顶级对接分数也很少超过最佳 ZINC 分子,突显数据需求。
- 该基准揭示了与优化目标相关的生成分子中的结构基序和趋势(例如对接分数倾向大环分子,小分子偏好排斥)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。